Verschieben von Daten in Azure Blob Storage

Wenn Ihr Workflow das Verschieben von Daten in Azure Blob Storage umfasst, stellen Sie sicher, dass Sie eine effiziente Strategie verwenden. Sie sollten den Cache erstellen, den BLOB-Container als Speicherziel hinzufügen und dann Ihre Daten mithilfe von Azure HPC Cache kopieren.

In diesem Artikel werden die besten Methoden zum Verschieben von Daten in blob-Speicher für die Verwendung mit Azure HPC Cache erläutert.

Tip

Dieser Artikel gilt nicht für NFS-bereitgestellten Blob-Speicher (ADLS-NFS Speicherzielorte). Sie können jede NFS-basierte Methode verwenden, um einen ADLS-NFS BLOB-Container vor oder nach dem Hinzufügen zum HPC-Cache aufzufüllen. Lesen Sie Vorabladedaten mit DEM NFS-Protokoll , um mehr zu erfahren.

Beachten Sie diese Fakten:

  • Azure HPC Cache verwendet ein spezielles Speicherformat, um Daten im BLOB-Speicher zu organisieren. Aus diesem Grund muss ein BLOB-Speicherziel entweder ein neuer, leerer Container oder ein BLOB-Container sein, der zuvor für Azure HPC-Cachedaten verwendet wurde.

  • Das Kopieren von Daten über den Azure HPC-Cache in ein Back-End-Speicherziel ist effizienter, wenn Sie mehrere Clients und parallele Vorgänge verwenden. Ein einfacher Kopierbefehl von einem Client verschiebt Daten nur langsam.

Die in diesem Artikel beschriebenen Strategien funktionieren sowohl für das Befüllen eines leeren Blob-Containers als auch für das Hinzufügen von Dateien zu einem zuvor verwendeten Speicherziel.

Kopieren von Daten über den Azure HPC-Cache

Azure HPC Cache ist so konzipiert, dass mehrere Clients gleichzeitig bedient werden. Um Daten über den Cache zu kopieren, sollten Sie parallele Schreibvorgänge von mehreren Clients verwenden.

Diagramm mit Multi-Client-, Multithread-Datenbewegungen: Oben links weist ein Symbol für den lokalen Hardwarespeicher mehrere Pfeile auf. Die Pfeile zeigen auf vier Clientcomputer. Von jedem Clientcomputer zeigen drei Pfeile auf den Azure HPC-Cache. Aus dem Azure HPC-Cache zeigen mehrere Pfeile auf BLOB-Speicher.

Die von Ihnen üblicherweise zum Übertragen von Daten zwischen zwei Speichersystemen verwendeten cp- oder copy-Befehle sind Prozesse, die einzelne Threads verwenden und jeweils nur eine Datei kopieren. Dies bedeutet, dass der Dateiserver jeweils nur eine Datei einnimmt – dies ist eine Verschwendung der Ressourcen des Caches.

In diesem Abschnitt werden Strategien zum Erstellen eines Multi-Client-, Multithread-Dateiübertragungssystems zum Verschieben von Daten in das Blob Storage mit Azure HPC Cache erläutert. Es werden Konzepte und Entscheidungspunkte für die Dateiübertragung erläutert, die zum effizienten Kopieren von Daten mit mehreren Clients und einfachen Kopierbefehlen verwendet werden können.

Außerdem werden einige Hilfsprogramme erläutert, die ihnen helfen können. Das msrsync Hilfsprogramm kann verwendet werden, um den Prozess der Aufteilung eines Datasets in Buckets und die Verwendung von rsync-Befehlen teilweise zu automatisieren. Das parallelcp Skript ist ein weiteres Hilfsprogramm, das das Quellverzeichnis liest und Kopierbefehle automatisch ausgibt.

Strategische Planung

Wenn Sie eine Strategie zum parallelen Kopieren von Daten erstellen, sollten Sie die Kompromisse in Der Dateigröße, der Dateianzahl und der Verzeichnistiefe verstehen.

  • Wenn Dateien klein sind, ist die Metrik von Interesse Dateien pro Sekunde.
  • Wenn Dateien groß (10MiBi oder höher) sind, ist die Metrik von Interesse Bytes pro Sekunde.

Jeder Kopiervorgang verfügt über eine Durchsatzrate und eine übertragene Dateirate, die gemessen werden kann, indem die Länge des Kopierbefehls gemessen und die Dateigröße und die Dateianzahl berücksichtigt werden. Das Erläutern der Messmethoden für die Raten liegt außerhalb des Umfangs dieses Dokuments, doch es ist zwingend erforderlich zu verstehen, ob Sie mit kleinen oder großen Dateien arbeiten werden.

Strategien für die parallele Erfassung von Daten mit Azure HPC-Cache umfassen:

Nächste Schritte

Nachdem Sie Ihren Speicher eingerichtet haben, erfahren Sie, wie Clients den Cache bereitstellen können.