Transfer danych na platformę Azure i z niej

Istnieje kilka opcji przesyłania danych do i z platformy Azure, w zależności od potrzeb.

Transfer fizyczny

Użycie sprzętu fizycznego do transferu danych na platformę Azure jest dobrym rozwiązaniem, gdy:

  • Sieć działa wolno lub zawodnie.
  • Coraz większa przepustowość sieci jest zbyt kosztowna.
  • Zasady zabezpieczeń lub organizacji nie zezwalają na połączenia wychodzące podczas obsługi poufnych danych.

Jeśli głównym problemem jest czas przesyłania danych, możesz uruchomić test, aby sprawdzić, czy transfer sieciowy jest wolniejszy niż transport fizyczny.

Istnieją dwie główne opcje fizycznego transportu danych na platformę Azure:

Usługa Azure Import/Export

Usługa Azure Import/Export umożliwia bezpieczne przesyłanie dużych ilości danych do Azure Blob Storage lub Azure Files przez wysyłanie wewnętrznych dysków HDD lub SDD SATA do centrum danych platformy Azure. Możesz również użyć tej usługi do transferu danych z usługi Azure Storage na dyski twarde i mieć dyski dostarczone do ciebie na potrzeby ładowania lokalnego.

Azure Data Box

Azure Data Box to urządzenie dostarczane przez firmę Microsoft, które działa podobnie jak usługa Import/Export. Dzięki usłudze Data Box firma Microsoft dostarcza zastrzeżone, bezpieczne i odporne na naruszenia urządzenie transferowe oraz obsługuje kompleksową logistykę, którą można śledzić za pośrednictwem portalu. Jedną z zalet usługi Data Box jest łatwość użycia. Nie musisz kupować kilku dysków twardych, przygotować je i przenieść pliki do każdego z nich. Usługa Data Box jest obsługiwana przez wielu wiodących w branży partnerów platformy Azure, aby ułatwić bezproblemowe korzystanie z transportu offline do chmury ze swoich produktów.

Narzędzia wiersza polecenia i interfejsy API

Rozważ następujące opcje, jeśli chcesz użyć skryptów i programowego transferu danych:

  • Interfejs wiersza polecenia platformy Azure to wieloplatformowe narzędzie, które umożliwia zarządzanie usługami platformy Azure i przekazywanie danych do usługi Storage.

  • AzCopy. Użyj narzędzia AzCopy z wiersza polecenia systemu Windows lub Linux , aby łatwo kopiować dane do i z usługi Blob Storage, Azure File Storage i Azure Table Storage z optymalną wydajnością. Narzędzie AzCopy obsługuje współbieżność i równoległość oraz umożliwia wznawianie operacji kopiowania, gdy zostaną przerwane. Możesz również użyć narzędzia AzCopy do kopiowania danych z platformy AWS na platformę Azure. W przypadku dostępu programowego biblioteka Microsoft Azure Storage Przenoszenia danych jest podstawową strukturą, która obsługuje narzędzie AzCopy. Jest ona dostarczana jako biblioteka .NET Core.

  • Za pomocą programu PowerShellpolecenie cmdlet Start-AzureStorageBlobCopy programu PowerShell jest opcją dla administratorów systemu Windows, którzy są przyzwyczajeni do programu PowerShell.

  • Narzędzie AdlCopy umożliwia kopiowanie danych z usługi Blob Storage do Azure Data Lake Storage. Można go również użyć do kopiowania danych między dwoma kontami Data Lake Storage. Nie można jednak jej używać do kopiowania danych z Data Lake Storage do usługi Blob Storage.

  • Narzędzie Distcp służy do kopiowania danych do i z magazynu klastra usługi HDInsight (WASB) do konta Data Lake Storage.

  • Sqoop to projekt Apache i część ekosystemu platformy Hadoop. Jest ona wstępnie zainstalowana we wszystkich klastrach usługi HDInsight. Umożliwia transfer danych między klastrem usługi HDInsight i relacyjnymi bazami danych, takimi jak SQL, Oracle, MySQL itd. Sqoop to kolekcja powiązanych narzędzi, w tym narzędzi do importowania i eksportowania. Narzędzie Sqoop współpracuje z klastrami usługi HDInsight przy użyciu usługi Blob Storage lub Data Lake Storage dołączonego magazynu.

  • PolyBase to technologia, która uzyskuje dostęp do danych spoza bazy danych za pośrednictwem języka T-SQL. W SQL Server 2016 r. umożliwia uruchamianie zapytań dotyczących danych zewnętrznych w usłudze Hadoop lub importowanie lub eksportowanie danych z usługi Blob Storage. W usłudze Azure Synapse Analytics można importować lub eksportować dane z usługi Blob Storage i Data Lake Storage. Obecnie technologia PolyBase to najszybsza metoda importowania danych do usługi Azure Synapse Analytics.

  • Użyj wiersza polecenia usługi Hadoop , gdy masz dane znajdujące się w węźle głównym klastra usługi HDInsight. Możesz użyć hadoop -copyFromLocal polecenia , aby skopiować te dane do dołączonego magazynu klastra, takiego jak Blob Storage lub Data Lake Storage. Aby użyć polecenia hadoop, należy najpierw nawiązać połączenie z węzłem głównym. Po nawiązaniu połączenia możesz przekazać plik do magazynu.

Interfejs graficzny

Rozważ następujące opcje, jeśli przesyłasz tylko kilka plików lub obiektów danych i nie musisz automatyzować procesu.

  • Eksplorator usługi Azure Storage to międzyplatformowe narzędzie, które umożliwia zarządzanie zawartością kont usługi Azure Storage. Umożliwia przekazywanie i pobieranie obiektów blob, plików, kolejek, tabel i jednostek bazy danych Azure Cosmos DB, a także zarządzanie nimi. Użyj go z usługą Blob Storage, aby zarządzać obiektami blob i folderami oraz przekazywać i pobierać obiekty blob między lokalnym systemem plików a usługą Blob Storage lub między kontami magazynu.

  • Użycie witryny Azure Portal. Zarówno usługa Blob Storage, jak i Data Lake Storage udostępniają internetowy interfejs do eksplorowania plików i przekazywania nowych plików. Ta opcja jest dobra, jeśli nie chcesz instalować narzędzi lub wydać poleceń, aby szybko eksplorować pliki, lub jeśli chcesz przekazać kilka nowych.

Synchronizacja danych i potoki

  • Azure Data Factory to usługa zarządzana najlepiej nadaje się do regularnego przesyłania plików między wieloma usługami platformy Azure, systemami lokalnymi lub kombinacją tych dwóch. Za pomocą usługi Data Factory można tworzyć i planować oparte na danych przepływy pracy nazywane potokami, które pozyskiwają dane z różnych magazynów danych. Usługa Data Factory może przetwarzać i przekształcać dane przy użyciu usług obliczeniowych, takich jak Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics i Azure Machine Learning. Przepływy pracy oparte na danych można tworzyć do organizowania i automatyzowania przenoszenia danych i przekształcania danych.

  • Potoki i działania w usłudze Data Factory i Azure Synapse Analytics mogą służyć do tworzenia pełnych przepływów pracy opartych na danych na potrzeby scenariuszy przenoszenia danych i przetwarzania danych. Ponadto środowisko Integration Runtime Azure Data Factory służy do zapewniania możliwości integracji danych w różnych środowiskach sieciowych.

  • Usługa Azure Data Box Gateway przesyła dane do i z platformy Azure, ale jest to urządzenie wirtualne, a nie dysk twardy. Maszyny wirtualne znajdujące się w sieci lokalnej zapisują dane w usłudze Data Box Gateway przy użyciu protokołów NFS i SMB. Urządzenie następnie przesyła dane na platformę Azure.

Kluczowe kryteria wyboru

W przypadku scenariuszy transferu danych wybierz odpowiedni system dla Twoich potrzeb, odpowiadając na następujące pytania:

  • Czy musisz przenieść duże ilości danych, gdzie to zrobić za pośrednictwem połączenia internetowego, być zbyt niewiarygodne lub zbyt drogie? Jeśli tak, rozważ transfer fizyczny.

  • Czy wolisz wykonywać skrypty zadań transferu danych, więc są one wielokrotnego użytku? Jeśli tak, wybierz jedną z opcji wiersza polecenia lub fabrykę danych.

  • Czy musisz przenieść dużą ilość danych za pośrednictwem połączenia sieciowego? Jeśli tak, wybierz opcję zoptymalizowaną pod kątem danych big data.

  • Czy musisz przenieść dane do lub z relacyjnej bazy danych? Jeśli tak, wybierz opcję, która obsługuje co najmniej jedną relacyjną bazę danych. Niektóre z tych opcji wymagają również klastra Hadoop.

  • Czy potrzebujesz zautomatyzowanego potoku danych lub aranżacji przepływu pracy? Jeśli tak, rozważ usługę Data Factory.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Transfer fizyczny

Możliwość Usługa Importowanie/eksportowanie Data Box
Faktor Wewnętrzne dyski HDD lub SDD SATA Bezpieczne, odporne na naruszenia, jedno urządzenie sprzętowe
Firma Microsoft zarządza logistyką wysyłkową Nie Tak
Integruje się z produktami partnerskimi Nie Tak
Urządzenie niestandardowe Nie Tak

Narzędzia wiersza polecenia

Hadoop/HDInsight:

Możliwość Distcp Sqoop Interfejs wiersza polecenia usługi Hadoop
Zoptymalizowane pod kątem danych big data Tak Tak Tak
Kopiowanie do relacyjnej bazy danych Nie Tak Nie
Kopiowanie z relacyjnej bazy danych Nie Tak Nie
Kopiowanie do usługi Blob Storage Tak Tak Tak
Kopiowanie z usługi Blob Storage Tak Tak Nie
Kopiowanie do Data Lake Storage Tak Tak Tak
Kopiowanie z Data Lake Storage Tak Tak Nie

Innych:

Możliwość Interfejs wiersza polecenia platformy Azure AzCopy PowerShell AdlCopy PolyBase
Zgodne platformy Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Zoptymalizowane pod kątem danych big data Nie Tak Nie Tak 1 Tak 2
Kopiowanie do relacyjnej bazy danych Nie Nie Nie Nie Tak
Kopiowanie z relacyjnej bazy danych Nie Nie Nie Nie Tak
Kopiowanie do usługi Blob Storage Tak Tak Tak Nie Tak
Kopiowanie z usługi Blob Storage Tak Tak Tak Tak Tak
Kopiowanie do Data Lake Storage Nie Tak Tak Tak Tak
Kopiowanie z Data Lake Storage Nie Nie Tak Tak Tak

[1] Narzędzie AdlCopy jest zoptymalizowane pod kątem przesyłania danych big data w przypadku użycia z kontem Data Lake Analytics.

[2] Wydajność technologii PolyBase można zwiększyć przez wypychanie obliczeń do usługi Hadoop i używanie grup skalowania w poziomie technologii PolyBase w celu umożliwienia równoległego transferu danych między wystąpieniami SQL Server a węzłami usługi Hadoop.

Interfejsy graficzne, synchronizacja danych i potoki danych

Możliwość Eksplorator usługi Azure Storage Azure Portal * Data Factory Data Box Gateway
Zoptymalizowane pod kątem danych big data Nie Nie Tak Tak
Kopiowanie do relacyjnej bazy danych Nie Nie Tak Nie
Kopiowanie z relacyjnej bazy danych Nie Nie Tak Nie
Kopiowanie do usługi Blob Storage Tak Nie Tak Tak
Kopiowanie z usługi Blob Storage Tak Nie Tak Nie
Kopiowanie do Data Lake Storage Nie Nie Tak Nie
Kopiowanie z Data Lake Storage Nie Nie Tak Nie
Przekazywanie do usługi Blob Storage Tak Tak Tak Tak
Przekazywanie do Data Lake Storage Tak Tak Tak Tak
Organizowanie transferów danych Nie Nie Tak Nie
Niestandardowe przekształcenia danych Nie Nie Tak Nie
Model cen Bezpłatna Bezpłatna Płatność za użycie Płatność za jednostkę

* Azure Portal w tym przypadku reprezentuje internetowe narzędzia do eksploracji dla usługi Blob Storage i Data Lake Storage.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki