Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Comme mentionné dans les types de données pris en charge, Microsoft Planetary Computer Pro prend en charge l’ingestion, l’optimisation cloud et la visualisation des fichiers de cube de données dans les formats NetCDF, HDF5 et GRIB2. Bien qu’elles soient complexes et historiquement fastidieuses sur le stockage local, ces ressources sont optimisées pour les environnements cloud avec Planetary Computer Pro, ce qui leur permet de mieux structurer et stocker des données multidimensionnelles telles que des images satellites et des modèles climatiques.
Gestion des cubes de données dans Planetary Computer Pro
Les fichiers de cube de données peuvent être ingérés dans Planetary Computer Pro de la même façon que d’autres types de données raster. Comme pour les autres formats de date, les ressources et les éléments associés du Spatio Temporal Asset Catalog (STAC) doivent être tout d'abord stockés dans Azure Blob Storage. Contrairement aux autres ressources raster bidimensionnelles, toutefois, un traitement supplémentaire se produit lors de l’ingestion de certains formats de cube de données (NetCDF et HDF5).
Remarque
Les données GRIB2 seront ingérées de la même façon que les autres données raster bidimensionnelles (sans enrichissement supplémentaire), car elles sont essentiellement une collection de rasters 2D avec un fichier d’index associé qui référence les données efficacement dans les environnements cloud.
Activation de l’enrichissement de cube de données de ressources STAC
Lorsqu’un élément STAC contenant des ressources NetCDF ou HDF5 est ingéré, ces ressources peuvent être enrichies avec des fonctionnalités de cube de données. Lorsque la fonctionnalité de cube de données est activée, un manifeste Kerchunk est généré et stocké dans le stockage blob avec la ressource, ce qui permet un accès aux données plus efficace.
Enrichissement de cube de données et manifestes Kerchunk
Pour les ressources STAC dans les formats NetCDF ou HDF5, Planetary Computer peut appliquer l’enrichissement de cube de données lors de l’ingestion. Ce processus génère un manifeste Kerchunk, qui est stocké dans le stockage blob en même temps que la ressource. Le manifeste Kerchunk permet un accès efficace aux formats de jeu de données segmentés.
Activation de l’enrichissement du cube de données
L’enrichissement de cube de données est activé pour les ressources applicables dans le JSON de l’élément STAC. Pour chaque ressource, l’enrichissement est déclenché si les deux conditions suivantes sont remplies :
- Le format de ressource est l’un des types suivants :
application/netcdf
application/x-netcdf
application/x-hdf5
- La ressource a un
roles
champ qui inclut soitdata
soitvisual
dans sa liste de rôles.
Si ces conditions sont remplies, un manifeste Kerchunk (assetid-kerchunk.json
) est généré dans le stockage blob en même temps que la ressource.
Remarque
Le type de format de ressourceapplication/x-hdf
correspond souvent à des ressources HDF4. L’ingestion GeoCatalog ne prend actuellement pas en charge la création de manifestes kerchunk virtuels pour HDF4 en raison de sa complexité supplémentaire et de plusieurs variantes.
L’enrichissement du cube de données modifie le json de l’élément STAC
Pour chaque ressource enrichie dans le JSON des éléments STAC, les champs suivants sont ajoutés :
-
msft:datacube_converted: true
: indique que l’enrichissement a été appliqué. -
cube:dimensions
: dictionnaire répertoriant les dimensions du jeu de données et leurs propriétés. -
cube:variables
: dictionnaire décrivant les variables de jeu de données et leurs propriétés.
Désactivation de l’enrichissement du cube de données
Pour désactiver l’enrichissement pour une ressource, supprimez data
et visual
de la liste roles
de la ressource dans le JSON des éléments STAC avant l’ingestion.
Gestion des échecs d’enrichissement
Si l’enrichissement du cube de données échoue, la ressource peut être ré-ingérée avec l’enrichissement désactivé en mettant à jour le JSON de l’élément STAC pour exclure le data
ou visual
rôle avant de réessayer l’ingestion.
Pourquoi activer l’enrichissement du cube de données ?
L’activation de l’enrichissement de cube de données améliore les performances d’accès aux données, en particulier pour les flux de travail de visualisation. Lorsqu’un manifeste Kerchunk est présent, il permet un accès plus rapide par rapport au chargement de l’intégralité du fichier de jeu de données.
Accès plus rapide aux jeux de données pour les API de données et la visualisation avec Kerchunk
L’Explorateur de données et les API de mosaïque utilisent de préférence le manifeste Kerchunk (.json
) pour les opérations de lecture de données, si celui-ci existe dans le même répertoire de stockage d’objets blob que la ressource d’origine. Au lieu d’ouvrir le fichier complet .nc
, nous utilisons un Zarr avec des fichiers de référence pour accéder uniquement aux données nécessaires.
La lecture de données à l’aide d’une approche basée sur des références est plus rapide, car elle évite de lire l’intégralité du fichier en mémoire.