Freigeben über


Datenwürfel in Microsoft Planetary Computer Pro

Wie in unterstützten Datentypen erwähnt, unterstützt Microsoft Planetary Computer Pro Aufnahme, Cloudoptimierung und Visualisierung von Datenwürfeldateien in NetCDF-, HDF5- und GRIB2-Formaten. Diese Ressourcen sind zwar komplex und historisch umständlich im lokalen Speicher zu verwalten, aber sie sind für Cloud-Umgebungen mit Planetary Computer Pro optimiert und werden dadurch zu effizienten Tools zum Strukturieren und Speichern multidimensionaler Daten wie Satellitenbilder und Klimamodelle.

Behandeln von Datenwürfeln in Planetary Computer Pro

Datenwürfeldateien können auf die gleiche Weise wie andere Rasterdatentypen in Planetary Computer Pro aufgenommen werden. Wie bei anderen Datumsformaten müssen Objekte und zugeordnete Spatio Temporal Asset Catalog (STAC)-Elemente zuerst in Azure Blob Storage gespeichert werden. Im Gegensatz zu anderen zweidimensionalen Rasterressourcen tritt jedoch bei der Aufnahme bestimmter Datenwürfelformate (NetCDF und HDF5) eine zusätzliche Verarbeitung auf.

Hinweis

GRIB2-Daten werden auf die gleiche Weise wie andere zweidimensionale Rasterdaten (ohne zusätzliche Anreicherung) aufgenommen, da sie im Wesentlichen eine Sammlung von 2D-Rastern mit einer zugeordneten Indexdatei sind, die auf die Daten effizient in Cloudumgebungen verweist.

Aktivieren der Datenwürfelerweiterung von STAC-Ressourcen

Wenn ein STAC-Element, das NetCDF- oder HDF5-Ressourcen enthält, aufgenommen wird, können diese Ressourcen mit Datenwürfelfunktionen erweitert werden. Wenn die Datenwürfelfunktion aktiviert ist, wird neben der Ressource ein Kerchunk-Manifest generiert und im Blob-Speicher gespeichert, wodurch ein effizienterer Datenzugriff ermöglicht wird.

Datenwürfelanreicherung und Kerchunk-Manifeste

Bei STAC-Ressourcen in NetCDF oder HDF5-Formaten kann Planetary Computer die Datenwürfelerweiterung während der Aufnahme anwenden. Dieser Prozess generiert ein Kerchunk-Manifest, das zusammen mit der Ressource im BLOB-Speicher gespeichert ist. Das Kerchunk-Manifest ermöglicht einen effizienten Zugriff auf Datensatzformate, die in Abschnitten organisiert sind.

Aktivieren der Datenwürfelerweiterung

Die Datenwürfelerweiterung ist für anwendbare Ressourcen im STAC-Element-JSON aktiviert. Für jede Ressource wird die Anreicherung ausgelöst, wenn beide der folgenden Bedingungen erfüllt sind:

  • Das Objektformat ist einer der folgenden Typen:
    • application/netcdf
    • application/x-netcdf
    • application/x-hdf5
  • Das Objekt hat ein roles-Feld, das entweder data oder visual in seiner Liste der Rollen enthält.

Wenn diese Bedingungen erfüllt sind, wird neben dem Asset ein Kerchunk-Manifest (assetid-kerchunk.json) im BLOB-Speicher generiert.

Hinweis

Der Objektformattypapplication/x-hdf entspricht häufig HDF4-Ressourcen. GeoCatalog-Aufnahme unterstützt derzeit nicht das Erstellen virtueller Kerchunkmanifeste für HDF4 aufgrund der hinzugefügten Komplexität und mehrerer Varianten.

Datenwürfelerweiterung ändert den JSON-Code des STAC-Elements

Für jede angereicherte Ressource im JSON-Code des STAC-Elements werden die folgenden Felder hinzugefügt:

  • msft:datacube_converted: true – Gibt an, dass die Anreicherung angewendet wurde.
  • cube:dimensions – Ein Wörterbuch, das Datasetabmessungen und deren Eigenschaften auflistet.
  • cube:variables – Ein Wörterbuch, das Datasetvariablen und deren Eigenschaften beschreibt.

Deaktivieren der Datenwürfelerweiterung

Zur Deaktivierung der Anreicherung für eine Ressource entfernen Sie data und visual von der Liste der Ressource roles in der STAC-Element-JSON vor der Erfassung.

Umgang mit Anreicherungsfehlern

Wenn die Anreicherung des Datenwürfels fehlschlägt, kann das Asset mit deaktivierter Anreicherung erneut aufgenommen werden, indem das STAC-Element-JSON aktualisiert wird, um die Rolle data oder visual auszuschließen, bevor der Aufnahmevorgang erneut versucht wird.

Warum datenwürfelerweiterung aktivieren?

Durch aktivieren der Datenwürfelerweiterung wird die Leistung des Datenzugriffs verbessert, insbesondere für Visualisierungsworkflows. Wenn ein Kerchunk-Manifest vorhanden ist, ermöglicht es einen schnelleren Zugriff im Vergleich zum Laden der gesamten Datasetdatei.

Schnellerer Datasetzugriff für Daten-APIs und Visualisierung mit Kerchunk

Der Daten-Explorer und die Tilungs-APIs verwenden bevorzugt das Kerchunk-Manifest (.json) für Datenlesevorgänge, wenn eins im selben BLOB-Speicherverzeichnis wie das ursprüngliche Objekt vorhanden ist. Anstatt die vollständige .nc Datei zu öffnen, verwenden wir einen Zarr mit Referenzdateien , um nur auf die erforderlichen Daten zuzugreifen.

Das Lesen von Daten mithilfe eines in Blöcken und referenzbasierten Ansatzes ist schneller, da vermieden wird, die gesamte Datei in den Arbeitsspeicher zu lesen.