Client Dask pour les ensembles de données plus volumineux

Dans cette section, nous allons analyser un ensemble de données plus vaste sur plusieurs intervalles de temps. Nous utiliserons le tableau de bord du client Dask pour visualiser l’état de nos calculs.

Cette section s’appuie sur les compétences des deux sections précédentes, notamment le chargement différé des données, l’ajout de plusieurs tâches à l’aide de « .compute() » et la visualisation du graphique des tâches à l’aide de « .visualise() ».

Charger des paquets

[3]:

import datacube
import matplotlib.pyplot as plt
from deafrica_tools.dask import create_local_dask_cluster
from deafrica_tools.plotting import rgb, display_map

Connexion au datacube

[4]:

dc = datacube.Datacube(app='Step3')

Créer un cluster Dask

[5]:

create_local_dask_cluster()

/usr/local/lib/python3.8/dist-packages/distributed/node.py:151: UserWarning: Port 8787 is already in use.
Perhaps you already have a cluster running?
Hosting the HTTP server on port 42079 instead
  warnings.warn(

Client

Scheduler: tcp://127.0.0.1:46737
Dashboard: /user/mseehaber@frontiersi.com.au/proxy/42079/status

Cluster

Workers: 1
Cores: 4
Memory: 28.14 GB

En retournant ceci, vous obtiendrez des informations sur le client et le cluster. Pour cet exercice, nous utiliserons le lien hypertexte vers le tableau de bord. Ce lien vous permettra de visualiser la progression de vos calculs au fur et à mesure de leur exécution.

Pour afficher le tableau de bord Dask et votre bloc-notes actif en même temps, suivez l’hyperlien et ouvrez-le dans une nouvelle fenêtre.

Chargement différé des données

[6]:

lazy_data = dc.load(product='gm_s2_semiannual',
                   measurements=['blue','green','red','nir'],
                   x=(30.1505, 30.4504),
                   y=(30.0899, 30.3898),
                   time=('2020-01-01', '2021-12-31'),
                   dask_chunks={'time':1,'x':1500, 'y':1700})

lazy_data

[6]:

<xarray.Dataset>
Dimensions:      (time: 4, y: 3317, x: 2895)
Coordinates:
  * time         (time) datetime64[ns] 2020-03-31T23:59:59.999999 ... 2021-09...
  * y            (y) float64 3.702e+06 3.702e+06 ... 3.669e+06 3.669e+06
  * x            (x) float64 2.909e+06 2.909e+06 ... 2.938e+06 2.938e+06
    spatial_ref  int32 6933
Data variables:
    blue         (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    green        (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    red          (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    nir          (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
Attributes:
    crs:           EPSG:6933
    grid_mapping:  spatial_ref

Plusieurs tâches à l’aide de .compute()

Dans cette section, vous allez enchaîner plusieurs étapes pour calculer une nouvelle bande pour le tableau de données. À l’aide des bandes rouge et nir, nous allons calculer l’indice de végétation par différence normalisée (NDVI).

[11]:

# calcualte NDVI using red and nir bands from array
band_diff = lazy_data.nir - lazy_data.red
band_sum = lazy_data.nir + lazy_data.red

# added ndvi dask array to the lazy_data dataset
lazy_data['ndvi'] = band_diff/ band_sum

# return the dataset
lazy_data

[11]:

<xarray.Dataset>
Dimensions:      (time: 4, y: 3317, x: 2895)
Coordinates:
  * time         (time) datetime64[ns] 2020-03-31T23:59:59.999999 ... 2021-09...
  * y            (y) float64 3.702e+06 3.702e+06 ... 3.669e+06 3.669e+06
  * x            (x) float64 2.909e+06 2.909e+06 ... 2.938e+06 2.938e+06
    spatial_ref  int32 6933
Data variables:
    blue         (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    green        (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    red          (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    nir          (time, y, x) uint16 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
    ndvi         (time, y, x) float64 dask.array<chunksize=(1, 1700, 1500), meta=np.ndarray>
Attributes:
    crs:           EPSG:6933
    grid_mapping:  spatial_ref

[12]:

lazy_data.ndvi.data.visualize()

[12]:

../../_images/sandbox_dask-howto_03_dask_client_13_0.png

En visualisant le graphique de la tâche, nous pouvons maintenant voir l’équation NDVI se dérouler sur les quatre pas de temps de notre période de deux ans. Chaque pas de temps est indiqué par une entrée de base de données distincte au bas du graphique de la tâche (voir le pas de temps unique mis en évidence ci-dessous).

Tracé de la série temporelle NDVI

[14]:

lazy_data_ndvi_compute.plot(col='time', col_wrap= 2, cmap='RdYlGn',figsize=(11, 9),vmin=0, vmax=1)

[14]:

<xarray.plot.facetgrid.FacetGrid at 0x7f4d38c3d880>

../../_images/sandbox_dask-howto_03_dask_client_18_1.png

Concepts clés

La fonction « create_local_dask_cluster() » tire parti de plusieurs cœurs de processeur pour accélérer les calculs, connus sous le nom de calcul distribué
Le tableau de bord Dask nous permet de visualiser la progression des calculs au fur et à mesure de leur exécution en temps réel

Informations complémentaires

Client Dask

Dask peut utiliser plusieurs cœurs de calcul (CPU) en parallèle pour accélérer les calculs, ce que l’on appelle le calcul distribué.

Le package deafrica_tools nous donne accès aux fonctions de support au sein du module Dask, y compris la fonction create_local_dask_cluster(), qui nous permet de profiter des multiples processeurs disponibles dans le Sandbox.

Tableau de bord Dask

L’onglet d’état du planificateur fournit des informations sur les éléments suivants :

Octets stockés : mémoire du cluster et mémoire par travailleur
Traitement des tâches : tâches traitées par chaque travailleur
Flux de tâches : affiche la progression de chaque tâche individuelle sur chaque thread, chaque ligne correspondant à un thread. Chaque couleur correspond à un type d’opération.
Progrès : progression des calculs individuels

L’image ci-dessous montre le flux de tâches et la barre de progression au fur et à mesure de l’exécution des calculs.

Comparaison de la progression du tableau de bord Dask.