Udostępnij za pośrednictwem


Transfer danych na platformę Azure i z niej

Istnieje kilka opcji przesyłania danych do i z platformy Azure, w zależności od potrzeb.

Transfer fizyczny

Użycie sprzętu fizycznego do transferu danych na platformę Azure jest dobrym rozwiązaniem w przypadku:

  • Sieć działa wolno lub zawodnie.
  • Zwiększenie przepustowości sieci jest kosztowne.
  • Zasady zabezpieczeń lub organizacji nie zezwalają na połączenia wychodzące w przypadku obsługi poufnych danych.

Jeśli twoim podstawowym problemem jest czas przesyłania danych, warto uruchomić test, aby sprawdzić, czy transfer sieciowy jest wolniejszy niż transport fizyczny.

Istnieją dwie główne opcje fizycznego transportu danych na platformę Azure:

Usługa Azure Import/Export

Usługa Azure Import/Export umożliwia bezpieczne przesyłanie dużych ilości danych do usługi Azure Blob Storage lub Azure Files przez wysyłanie wewnętrznych dysków twardych SATA (HDD) lub SDD do centrum danych platformy Azure. Możesz również użyć tej usługi do transferu danych z usługi Azure Storage na dyski twarde i mieć dyski dostarczane do ładowania lokalnego.

Azure Data Box

Azure Data Box to urządzenie dostarczane przez firmę Microsoft, które działa podobnie jak usługa Import/Export. Dzięki usłudze Data Box firma Microsoft dostarcza zastrzeżone, bezpieczne i odporne na naruszenia urządzenie transferowe i obsługuje kompleksową logistykę, którą można śledzić za pośrednictwem portalu. Jedną z zalet usługi Data Box jest łatwość użycia. Nie musisz kupować kilku dysków twardych, przygotowywać ich i przesyłać pliki do każdego z nich. Usługa Data Box jest obsługiwana przez wielu wiodących w branży partnerów platformy Azure, aby ułatwić bezproblemowe korzystanie z transportu offline do chmury z ich produktów.

Narzędzia wiersza polecenia i interfejsy API

Rozważ następujące opcje, jeśli chcesz przesyłać dane skryptowe i programowe:

  • Interfejs wiersza polecenia platformy Azure to międzyplatformowe narzędzie umożliwiające zarządzanie usługami platformy Azure i przekazywanie danych do usługi Storage.

  • AzCopy. Użyj narzędzia AzCopy z wiersza polecenia systemu Windows lub Linux , aby łatwo kopiować dane do i z usługi Blob Storage, Azure File Storage i Azure Table Storage z optymalną wydajnością. Narzędzie AzCopy obsługuje współbieżność i równoległość oraz umożliwia wznawianie operacji kopiowania, gdy zostaną przerwane. Możesz również użyć narzędzia AzCopy, aby skopiować dane z platformy AWS na platformę Azure. W przypadku dostępu programowego biblioteka przenoszenia danych usługi Microsoft Azure Storage to podstawowa struktura, która obsługuje narzędzie AzCopy. Jest ona udostępniana jako biblioteka platformy .NET Core.

  • W programie PowerShell polecenie cmdlet Start-AzureStorageBlobCopy programu PowerShell jest opcją dla administratorów systemu Windows, którzy są przyzwyczajeni do programu PowerShell.

  • Narzędzie AdlCopy umożliwia kopiowanie danych z usługi Blob Storage do usługi Azure Data Lake Storage. Można go również użyć do kopiowania danych między dwoma kontami usługi Data Lake Storage. Nie można jednak jej używać do kopiowania danych z usługi Data Lake Storage do usługi Blob Storage.

  • Narzędzie Distcp służy do kopiowania danych do i z magazynu klastra usługi HDInsight (WASB) na konto usługi Data Lake Storage.

  • Sqoop to projekt Apache i część ekosystemu platformy Hadoop. Jest on wstępnie zainstalowany we wszystkich klastrach usługi HDInsight. Umożliwia przesyłanie danych między klastrem usługi HDInsight i relacyjnymi bazami danych, takimi jak SQL, Oracle, MySQL itd. Sqoop to kolekcja powiązanych narzędzi, w tym narzędzi do importowania i eksportowania. Narzędzie Sqoop współpracuje z klastrami usługi HDInsight przy użyciu magazynu obiektów blob lub magazynu dołączonego do usługi Data Lake Storage.

  • PolyBase to technologia, która uzyskuje dostęp do danych spoza bazy danych za pośrednictwem języka T-SQL. W programie SQL Server 2016 umożliwia uruchamianie zapytań dotyczących danych zewnętrznych w usłudze Hadoop lub importowanie lub eksportowanie danych z usługi Blob Storage. W usłudze Azure Synapse Analytics można importować lub eksportować dane z usług Blob Storage i Data Lake Storage. Obecnie technologia PolyBase jest najszybszą metodą importowania danych do usługi Azure Synapse Analytics.

  • Użyj wiersza polecenia usługi Hadoop, gdy masz dane znajdujące się w węźle głównym klastra usługi HDInsight. Możesz użyć hadoop -copyFromLocal polecenia , aby skopiować te dane do dołączonego magazynu klastra, takiego jak Blob Storage lub Data Lake Storage. Aby użyć polecenia hadoop, należy najpierw nawiązać połączenie z węzłem głównym. Po nawiązaniu połączenia możesz przekazać plik do magazynu.

Interfejs graficzny

Rozważ następujące opcje, jeśli przesyłasz tylko kilka plików lub obiektów danych i nie musisz automatyzować tego procesu.

  • Eksplorator usługi Azure Storage to międzyplatformowe narzędzie umożliwiające zarządzanie zawartością kont usługi Azure Storage. Umożliwia przekazywanie i pobieranie obiektów blob, plików, kolejek, tabel i jednostek bazy danych Azure Cosmos DB, a także zarządzanie nimi. Usługa Blob Storage umożliwia zarządzanie obiektami blob i folderami oraz przekazywanie i pobieranie obiektów blob między lokalnym systemem plików a usługą Blob Storage lub między kontami magazynu.

  • Użycie witryny Azure Portal. Zarówno usługa Blob Storage, jak i usługa Data Lake Storage udostępniają internetowy interfejs do eksplorowania plików i przekazywania nowych plików. Ta opcja jest dobrym rozwiązaniem, jeśli nie chcesz instalować narzędzi lub wydać poleceń, aby szybko eksplorować pliki, lub jeśli chcesz przekazać kilka nowych.

Synchronizacja danych i potoki

  • Azure Data Factory to usługa zarządzana najlepiej nadaje się do regularnego przesyłania plików między wieloma usługami platformy Azure, systemami lokalnymi lub kombinacją tych dwóch. Za pomocą usługi Data Factory można tworzyć i planować oparte na danych przepływy pracy nazywane potokami, które pozyskują dane z różnych magazynów danych. Usługa Data Factory może przetwarzać i przekształcać dane przy użyciu usług obliczeniowych, takich jak Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics i Azure Machine Edukacja. Możesz tworzyć oparte na danych przepływy pracy do organizowania i automatyzowania przenoszenia danych i przekształcania danych.

  • Potoki i działania w usługach Data Factory i Azure Synapse Analytics mogą służyć do tworzenia pełnych przepływów pracy opartych na danych na potrzeby scenariuszy przenoszenia danych i przetwarzania danych. Ponadto środowisko Azure Data Factory Integration Runtime służy do zapewniania możliwości integracji danych w różnych środowiskach sieciowych.

  • Usługa Azure Data Box Gateway przesyła dane do i z platformy Azure, ale jest to urządzenie wirtualne, a nie dysk twardy. Maszyny wirtualne znajdujące się w sieci lokalnej zapisują dane w usłudze Data Box Gateway przy użyciu protokołów sieciowego systemu plików (NFS) i SMB. Następnie urządzenie przesyła dane na platformę Azure.

Kluczowe kryteria wyboru

W przypadku scenariuszy transferu danych wybierz odpowiedni system dla Twoich potrzeb, odpowiadając na następujące pytania:

  • Czy musisz przenieść duże ilości danych, gdzie to za pośrednictwem połączenia internetowego zajęłoby zbyt dużo czasu, byłoby zawodne lub zbyt kosztowne? Jeśli tak, rozważ transfer fizyczny.

  • Czy wolisz wykonywać skrypty zadań transferu danych, więc są one wielokrotnego użytku? Jeśli tak, wybierz jedną z opcji wiersza polecenia lub fabrykę danych.

  • Czy musisz przenieść dużą ilość danych za pośrednictwem połączenia sieciowego? Jeśli tak, wybierz opcję zoptymalizowaną pod kątem danych big data.

  • Czy musisz przesłać dane do lub z relacyjnej bazy danych? Jeśli tak, wybierz opcję, która obsługuje co najmniej jedną relacyjną bazę danych. Niektóre z tych opcji wymagają również klastra Hadoop.

  • Czy potrzebujesz zautomatyzowanego potoku danych lub aranżacji przepływu pracy? Jeśli tak, rozważ użycie usługi Data Factory.

Macierz możliwości

W poniższych tabelach podsumowano kluczowe różnice w możliwościach.

Transfer fizyczny

Możliwość Usługa Import/Export Data Box
Faktor Wewnętrzne dyski HDD LUB SDD SATA Bezpieczne, odporne na naruszenia, jedno urządzenie sprzętowe
Firma Microsoft zarządza logistyką wysyłkową Nie. Tak
Integruje się z produktami partnerskimi Nie. Tak
Urządzenie niestandardowe Nie. Tak

Narzędzia wiersza polecenia

Hadoop/HDInsight:

Możliwość Distcp Sqoop Interfejs wiersza polecenia usługi Hadoop
Zoptymalizowane pod kątem danych big data Tak Tak Tak
Kopiowanie do relacyjnej bazy danych Nie. Tak Nie.
Kopiowanie z relacyjnej bazy danych Nie. Tak Nie.
Kopiowanie do usługi Blob Storage Tak Tak Tak
Kopiowanie z usługi Blob Storage Tak Tak Nie.
Kopiowanie do usługi Data Lake Storage Tak Tak Tak
Kopiowanie z usługi Data Lake Storage Tak Tak Nie.

Inne:

Możliwość Interfejs wiersza polecenia platformy Azure AzCopy PowerShell AdlCopy PolyBase
Zgodne platformy Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Zoptymalizowane pod kątem danych big data Nie. Tak Nie. Tak 1 Tak 2
Kopiowanie do relacyjnej bazy danych Nie Nie. Nie. Nie. Tak
Kopiowanie z relacyjnej bazy danych Nie Nie. Nie. Nie. Tak
Kopiowanie do usługi Blob Storage Tak Tak Tak Nie Tak
Kopiowanie z usługi Blob Storage Tak Tak Tak Tak Tak
Kopiowanie do usługi Data Lake Storage Nie. Tak Tak Tak Tak
Kopiowanie z usługi Data Lake Storage Nie Nie. Tak Tak Tak

[1] Narzędzie AdlCopy jest zoptymalizowane pod kątem przesyłania danych big data w przypadku użycia z kontem usługi Data Lake Analytics.

Wydajność technologii PolyBase można zwiększyć dzięki wypychaniu obliczeń do usługi Hadoop i używaniu grup skalowania w poziomie technologii PolyBase w celu umożliwienia równoległego transferu danych między wystąpieniami programu SQL Server i węzłami usługi Hadoop.

Interfejsy graficzne, synchronizacja danych i potoki danych

Możliwość Eksplorator magazynu Azure Azure Portal * Data Factory Data Box Gateway
Zoptymalizowane pod kątem danych big data Nie Nie. Tak Tak
Kopiowanie do relacyjnej bazy danych Nie Nie. Tak Nie.
Kopiowanie z relacyjnej bazy danych Nie Nie. Tak Nie.
Kopiowanie do usługi Blob Storage Tak Nie Tak Tak
Kopiowanie z usługi Blob Storage Tak Nie Tak Nie.
Kopiowanie do usługi Data Lake Storage Nie Nie. Tak Nie.
Kopiowanie z usługi Data Lake Storage Nie Nie. Tak Nie.
Przekazywanie do usługi Blob Storage Tak Tak Tak Tak
Przekazywanie do usługi Data Lake Storage Tak Tak Tak Tak
Organizowanie transferów danych Nie Nie. Tak Nie.
Niestandardowe przekształcenia danych Nie Nie. Tak Nie.
Model cen Bezpłatna Bezpłatna Płatność za użycie Płatność za jednostkę

* Witryna Azure Portal w tym przypadku reprezentuje internetowe narzędzia eksploracji dla usług Blob Storage i Data Lake Storage.

Współautorzy

Ten artykuł jest obsługiwany przez firmę Microsoft. Pierwotnie został napisany przez następujących współautorów.

Główny autor:

Następne kroki