Datenwürfel in Microsoft Planetary Computer Pro

Wie in unterstützten Datentypen erwähnt, unterstützt Microsoft Planetary Computer Pro die Aufnahme, Cloudoptimierung und Visualisierung von Datenwürfeldateien in NetCDF-, HDF5-, Zarr- und GRIB2-Formaten. Diese Ressourcen sind zwar komplex und historisch umständlich im lokalen Speicher zu verwalten, aber sie sind für Cloud-Umgebungen mit Planetary Computer Pro optimiert und werden dadurch zu effizienten Tools zum Strukturieren und Speichern multidimensionaler Daten wie Satellitenbilder und Klimamodelle.

Erfassen von Datencubes

Datenwürfeldateien können auf die gleiche Weise wie andere Rasterdatentypen in Planetary Computer Pro aufgenommen werden. Wie bei anderen Datumsformaten müssen Objekte und zugeordnete Spatio Temporal Asset Catalog (STAC)-Elemente zuerst in Azure Blob Storage gespeichert werden. Im Gegensatz zu anderen zweidimensionalen Rasterressourcen treten jedoch mehr Schritte zur Cloudoptimierung bei der Aufnahme bestimmter Datenwürfelformate (NetCDF und HDF5) auf.

Hinweis

GRIB2-Daten werden auf die gleiche Weise wie andere zweidimensionale Rasterdaten (ohne andere Cloudoptimierungsschritte) erfasst, da sie im Wesentlichen eine Sammlung von 2D-Rastern mit einer zugeordneten Indexdatei sind, die auf die Daten effizient in Cloudumgebungen verweist. Ebenso ist Zarr bereits ein cloudeigenes Format, daher findet keine Optimierung bei der Aufnahme statt.

Cloudoptimierung von Datenwürfeln

Wenn ein STAC-Element, das NetCDF- oder HDF5-Ressourcen enthält, aufgenommen wird, sind die Ressourcen in der Cloud optimiert, nicht durch Transformieren der Daten selbst, sondern durch Generierung von Referenzdateien, die einen effizienteren Datenzugriff ermöglichen.

Cloudoptimierung über Kerchunk-Manifeste

Im Gegensatz zu 2D-Rasterdaten, die in cloudoptimierte Geotiffs (COGs) umgewandelt werden, wenn sie in Planetary Computer Pro aufgenommen werden, werden Datenwürfelressourcen durch Generierung von Referenzdateien oder Kerchunk-Manifesten optimiert. Kerchunk ist eine Open-Source-Python-Bibliothek, die diese Blockmanifeste oder JSON-Dateien erstellt, die die Struktur des Datenwürfels und deren Blöcke mithilfe von Zarr-Stil-Blockschlüsseln beschreiben, die den Bytebereichen in der ursprünglichen Datei zugeordnet sind, in der sich diese Blöcke befinden. Nach dem Generieren werden die Kerchunk-Dateien zusammen mit den Ressourcen im Blob-Speicher gespeichert, und die STAC-Elemente werden erweitert, um Verweise auf diese Manifeste einzuschließen und den Datenzugriff für Cloudumgebungen zu optimieren.

STAC-Elementeigenschaften, die die Cloudoptimierung auslösen

Innerhalb der STAC-Elemente der Sammlung müssen die folgenden Bedingungen erfüllt sein, damit eine Datenwürfelressource in der Cloud optimiert werden kann:

Das Objektformat ist einer der folgenden Typen:
- application/netcdf
- application/x-netcdf
- application/x-hdf5
Das Objekt hat ein roles-Feld, das entweder data oder visual in seiner Liste der Rollen enthält.

Wenn diese Bedingungen erfüllt sind, wird neben dem Asset ein Kerchunk-Manifest (assetid-kerchunk.json) im Blob-Speicher generiert.

Hinweis

Der Objektformattypapplication/x-hdf entspricht häufig HDF4-Ressourcen. GeoCatalog-Aufnahme unterstützt derzeit nicht das Erstellen virtueller Kerchunkmanifeste für HDF4 aufgrund der hinzugefügten Komplexität und mehrerer Varianten.

STAC-Itemanreicherung

Für jede optimierte Ressource innerhalb des STAC-Elements werden die folgenden Felder hinzugefügt:

msft:datacube_converted: true – Gibt an, dass die Anreicherung angewendet wurde.
cube:dimensions – Ein Wörterbuch, das Datasetabmessungen und deren Eigenschaften auflistet.
cube:variables – Ein Wörterbuch, das Datasetvariablen und deren Eigenschaften beschreibt.

Diese Variablen sollten für Renderkonfigurationen verwendet werden, um sicherzustellen, dass Ihre Visualisierung von Datenwürfelressourcen im Explorer Ihre Daten am effizientesten liest und rendert.

Vorteile von cloudoptimierten Datenwürfeln

Die Datenwürfel-Cloudoptimierung verbessert die Leistung des Datenzugriffs, insbesondere für Visualisierungsworkflows. Wenn ein Kerchunk-Manifest vorhanden ist, ermöglicht es einen schnelleren Zugriff im Vergleich zum Laden der gesamten Datasetdatei.

Der Microsoft Planetary Computer Pro Explorer und die Tiling-APIs verwenden bevorzugt das Kerchunk-Manifest für Datenlesevorgänge, wenn eins im selben BLOB-Speicherverzeichnis wie die ursprüngliche Ressource vorhanden ist.

Das Lesen von Daten mithilfe eines in Blöcken und referenzbasierten Ansatzes ist schneller, da vermieden wird, die gesamte Datei in den Arbeitsspeicher zu lesen.

Deaktivieren der Datenwürfel-Cloudoptimierung

Wenn Sie entscheiden, dass Sie nicht mit cloud-optimierten Datenwürfelassets arbeiten möchten, deaktivieren Sie die Cloud-Optimierung, indem Sie data und visual aus der roles-Liste der Assets in der STAC-Element-JSON vor der Aufnahme entfernen.

Zarr-Einspeisung und Datenaktualisierungen

Wie bereits erwähnt, ist Zarr inhärent ein cloud-natives Format, sodass keine zusätzliche Optimierung erforderlich ist, wenn es ingesiert wird, und keine Änderungen an den STAC-Elementen notwendig sind. Wenn Sie jedoch beabsichtigen, Ihre Zarr-Ressourcen dynamisch zu aktualisieren und STAC-Elemente erneut aufzunehmen, um mit der neuesten Version zu arbeiten, müssen Sie sich zwei Updatemethoden bewusst sein: Anfügen und Synchronisieren.

Append

Wenn Sie einem lokal gespeicherten Zarr-Speicher neue Daten hinzufügen, aber die in Planetary Computer Pro gespeicherte Version aktualisieren möchten, müssen Sie das STAC-Item erneut ingestieren. Wenn dieses Element erneut aufgenommen wird, besteht das Standardverhalten darin, die Ressourcen für alle neuen Daten zu überprüfen und sie den in der Cloud gespeicherten Daten hinzuzufügen. Vor der Wiedereinfügung ist keine Änderung des STAC-Eintrags erforderlich.

Synchronisation

Wenn Sie Daten aus einem lokal gespeicherten Zarr-Speicher entfernen, lässt das Erneute Aufnehmen desselben STAC-Elements nicht zu, dass die cloudbasierte Version mit der Version auf Ihrem Computer übereinstimmt, da die Anfügefunktion nach neuen Daten sucht, aber nicht entsprechend fehlenden Daten angepasst wird. Hier kommt die Synchronisierung ins Spiel. Indem Sie das STAC-Element so ändern, dass es einen Parameter enthält, der angibt, dass Sie synchronisieren möchten, und indem Sie dieses geänderte STAC-Element erneut übernehmen, sind nur die aktuellsten Daten aus dem Zarr-Speicher in Planetary Computer Pro verfügbar. Die Änderung des STAC-Elements sollte wie folgt angezeigt werden:

{
    ...
    "assets": {
        "pr": {
            "href": "https://managedstorage.azure.com/collection-container/somestuff/pr.zarr",
            "msft:ingestion": {
              "directory": "sync"
            }
        }
    }
}

Zugreifen auf STAC-Sammlungsdaten-Cuberessourcen mit einem SAS-Token auf Sammlungsebene

Feedback

War diese Seite hilfreich?

Last updated on 2025-11-05