Przenoszenie danych do usługi Azure Blob Storage

Jeśli przepływ pracy obejmuje przenoszenie danych do usługi Azure Blob Storage, upewnij się, że używasz wydajnej strategii. Należy utworzyć pamięć podręczną, dodać kontener obiektów blob jako miejsce docelowe magazynu, a następnie skopiować dane przy użyciu usługi Azure HPC Cache.

W tym artykule wyjaśniono najlepsze sposoby przenoszenia danych do magazynu obiektów blob do użycia z usługą Azure HPC Cache.

Napiwek

Ten artykuł nie dotyczy magazynu obiektów blob zainstalowanych w systemie plików NFS (cele magazynu ADLS-NFS). Możesz użyć dowolnej metody opartej na systemie plików NFS, aby wypełnić kontener obiektów blob adLS-NFS przed lub po dodaniu go do pamięci podręcznej HPC Cache. Przeczytaj artykuł Wstępne ładowanie danych przy użyciu protokołu NFS, aby dowiedzieć się więcej.

Należy pamiętać o następujących faktach:

  • Usługa Azure HPC Cache używa wyspecjalizowanego formatu magazynu do organizowania danych w magazynie obiektów blob. Dlatego obiekt docelowy magazynu obiektów blob musi być nowym, pustym kontenerem lub kontenerem obiektów blob, który był wcześniej używany na potrzeby danych usługi Azure HPC Cache.

  • Kopiowanie danych za pośrednictwem usługi Azure HPC Cache do docelowego magazynu zaplecza jest bardziej wydajne w przypadku korzystania z wielu klientów i operacji równoległych. Proste polecenie kopiowania z jednego klienta będzie powoli przenosić dane.

Strategie opisane w tym artykule działają na potrzeby wypełniania pustego kontenera obiektów blob lub dodawania plików do wcześniej używanego miejsca docelowego magazynu.

Kopiowanie danych za pośrednictwem usługi Azure HPC Cache

Usługa Azure HPC Cache została zaprojektowana tak, aby obsługiwała wielu klientów jednocześnie, dlatego w celu kopiowania danych za pośrednictwem pamięci podręcznej należy używać równoległych zapisów z wielu klientów.

Diagram showing multi-client, multi-threaded data movement: At the top left, an icon for on-premises hardware storage has multiple arrows coming from it. The arrows point to four client machines. From each client machine three arrows point toward the Azure HPC Cache. From the Azure HPC Cache, multiple arrows point to blob storage.

Polecenia cp lub copy , których zwykle używasz do przesyłania danych z jednego systemu magazynu do innego, to procesy jednowątkowe, które kopiują tylko jeden plik naraz. Oznacza to, że serwer plików pozyskiwa tylko jeden plik naraz — co jest stratą zasobów pamięci podręcznej.

W tej sekcji opisano strategie tworzenia systemu kopiowania plików wielowątkowego obejmującego wiele klientów w celu przenoszenia danych do magazynu obiektów blob za pomocą usługi Azure HPC Cache. Wyjaśniono w nim pojęcia dotyczące transferu plików i punkty decyzyjne, które mogą służyć do wydajnego kopiowania danych przy użyciu wielu klientów i prostych poleceń kopiowania.

Wyjaśnia również niektóre narzędzia, które mogą pomóc. Narzędzie msrsync może służyć do częściowego automatyzowania procesu dzielenia zestawu danych na zasobniki i używania poleceń rsync. Skrypt parallelcp jest innym narzędziem, które odczytuje katalog źródłowy i automatycznie wystawia polecenia kopiowania.

Planowanie strategiczne

Podczas tworzenia strategii kopiowania danych równolegle należy zrozumieć kompromisy w zakresie rozmiaru pliku, liczby plików i głębokości katalogu.

  • Gdy pliki są małe, metryka zainteresowania to pliki na sekundę.
  • Gdy pliki są duże (10MiBi lub większe), metryka zainteresowania jest bajtami na sekundę.

Każdy proces kopiowania ma szybkość przepływności i szybkość transferu plików, która może być mierzona według czasu długości polecenia kopiowania i uwzględniania rozmiaru pliku i liczby plików. Wyjaśnienie sposobu mierzenia stawek wykracza poza zakres tego dokumentu, ale należy zrozumieć, czy będziesz radzić sobie z małymi lub dużymi plikami.

Strategie pozyskiwania danych równoległych za pomocą usługi Azure HPC Cache obejmują:

Następne kroki

Po skonfigurowaniu magazynu dowiedz się, jak klienci mogą zainstalować pamięć podręczną.