Gegevens verplaatsen naar en van Azure

Er zijn verschillende opties voor het overdragen van gegevens van en naar Azure, afhankelijk van uw behoeften.

Fysieke overdracht

Het gebruik van fysieke hardware om gegevens over te dragen naar Azure is een goede optie wanneer:

  • Uw netwerk is traag of onbetrouwbaar.
  • Het verkrijgen van meer netwerkbandbreedte is kostbaar.
  • Beveiligings- of organisatiebeleid staat geen uitgaande verbindingen toe bij het omgaan met gevoelige gegevens.

Als u zich primair zorgen maakt over hoe lang het duurt om uw gegevens over te dragen, kunt u een test uitvoeren om te controleren of netwerkoverdracht langzamer is dan fysiek transport.

Er zijn twee hoofdopties voor het fysiek transporteren van gegevens naar Azure:

De Azure Import/Export-service

Met de Azure Import/Export-service kunt u veilig grote hoeveelheden gegevens overdragen naar Azure Blob Storage of Azure Files door interne SATA-HDD's of SDD's naar een Azure-datacenter te verzenden. U kunt deze service ook gebruiken om gegevens van Azure Storage over te dragen naar harde schijven en de stations naar u te laten verzenden om on-premises te laden.

Azure Data Box

Azure Data Box is een door Microsoft geleverd apparaat dat vergelijkbaar is met de Import/Export-service. Met Data Box stuurt Microsoft u een eigen, veilig en manipulatiebestendig overdrachtsapparaat en zorgt microsoft voor de end-to-end logistiek, die u via de portal kunt volgen. Een voordeel van de Data Box-service is gebruiksgemak. U hoeft niet meerdere harde schijven aan te schaffen, ze voor te bereiden en bestanden naar elk station over te brengen. Data Box wordt ondersteund door veel toonaangevende Azure-partners om het naadloos gebruik te maken van offline transport naar de cloud vanuit hun producten.

Opdrachtregelprogramma's en API's

Overweeg de volgende opties wanneer u gegevensoverdracht met scripts en programma's wilt uitvoeren:

  • De Azure CLI is een platformoverschrijdend hulpprogramma waarmee u Azure-services kunt beheren en gegevens kunt uploaden naar Storage.

  • AzCopy. Gebruik AzCopy vanaf een Windows - of Linux-opdrachtregel om eenvoudig gegevens te kopiëren van en naar Blob Storage, Azure File Storage en Azure Table Storage met optimale prestaties. AzCopy biedt ondersteuning voor gelijktijdigheid en parallellisme, en de mogelijkheid om kopieerbewerkingen te hervatten als deze worden onderbroken. U kunt AzCopy ook gebruiken om gegevens van AWS naar Azure te kopiëren. Voor programmatische toegang is de Microsoft Azure Storage Data Movement Library het kernframework dat AzCopy mogelijk maakt. Deze wordt geleverd als een .NET Core-bibliotheek.

  • Met PowerShell is de PowerShell-cmdlet Start-AzureStorageBlobCopy een optie voor Windows-beheerders die PowerShell gebruiken.

  • Met AdlCopy kunt u gegevens uit Blob Storage kopiëren naar Azure Data Lake Storage. Het kan ook worden gebruikt om gegevens tussen twee Data Lake Storage-accounts te kopiëren. Het kan echter niet worden gebruikt om gegevens van Data Lake Storage naar Blob Storage te kopiëren.

  • Distcp wordt gebruikt om gegevens te kopiëren van en naar een HDInsight-clusteropslag (WASB) naar een Data Lake Storage-account.

  • Sqoop is een Apache-project en maakt deel uit van het Hadoop-ecosysteem. Het wordt vooraf geïnstalleerd op alle HDInsight-clusters. Hiermee is gegevensoverdracht mogelijk tussen een HDInsight-cluster en relationele databases zoals SQL, Oracle, MySQL, enzovoort. Sqoop is een verzameling gerelateerde hulpprogramma's, waaronder hulpprogramma's voor importeren en exporteren. Sqoop werkt met HDInsight-clusters met behulp van Blob Storage of Data Lake Storage gekoppelde opslag.

  • PolyBase is een technologie die toegang heeft tot gegevens buiten een database via de T-SQL-taal. In SQL Server 2016 kunt u query's uitvoeren op externe gegevens in Hadoop of gegevens importeren of exporteren uit Blob Storage. In Azure Synapse Analytics kunt u gegevens importeren of exporteren uit Blob Storage en Data Lake Storage. PolyBase is momenteel de snelste methode voor het importeren van gegevens in Azure Synapse Analytics.

  • Gebruik de Hadoop-opdrachtregel wanneer u gegevens hebt die zich op het hoofdknooppunt van een HDInsight-cluster bevinden. U kunt de hadoop -copyFromLocal opdracht gebruiken om die gegevens te kopiëren naar de gekoppelde opslag van uw cluster, zoals Blob Storage of Data Lake Storage. Als u de Opdracht Hadoop wilt gebruiken, moet u eerst verbinding maken met het hoofdknooppunt. Zodra u verbinding hebt gemaakt, kunt u een bestand uploaden naar de opslag.

Grafische interface

Overweeg de volgende opties als u slechts enkele bestanden of gegevensobjecten overdraagt en het proces niet hoeft te automatiseren.

  • Azure Storage Explorer is een platformoverschrijdend hulpprogramma waarmee u de inhoud van uw Azure-opslagaccounts kunt beheren. Het stelt u in staat om blobs, bestanden, wachtrijen en tabellen, en Azure Cosmos DB-entiteiten te uploaden, downloaden en beheren. Gebruik het met Blob Storage om blobs en mappen te beheren en blobs te uploaden en te downloaden tussen uw lokale bestandssysteem en Blob Storage, of tussen opslagaccounts.

  • Azure-portal. Zowel Blob Storage als Data Lake Storage bieden een webinterface voor het verkennen van bestanden en het uploaden van nieuwe bestanden. Deze optie is een goede optie als u geen hulpprogramma's wilt installeren of opdrachten wilt geven om snel uw bestanden te verkennen, of als u een aantal nieuwe wilt uploaden.

Gegevenssynchronisatie en pijplijnen

  • Azure Data Factory is een beheerde service die het meest geschikt is voor het regelmatig overdragen van bestanden tussen veel Azure-services, on-premises systemen of een combinatie van beide. Met Data Factory kunt u gegevensgestuurde werkstromen maken en plannen, pijplijnen genoemd, die gegevens opnemen uit verschillende gegevensarchieven. Data Factory kan de gegevens verwerken en transformeren met behulp van rekenservices zoals Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics en Azure Machine Learning. U kunt gegevensgestuurde werkstromen maken voor het organiseren en automatiseren van gegevensverplaatsing en gegevenstransformatie.

  • Pijplijnen en activiteiten in Data Factory en Azure Synapse Analytics kunnen worden gebruikt om end-to-end gegevensgestuurde werkstromen te maken voor uw scenario's voor gegevensverplaatsing en gegevensverwerking. Daarnaast wordt de Azure Data Factory Integration Runtime gebruikt om mogelijkheden voor gegevensintegratie te bieden in verschillende netwerkomgevingen.

  • Azure Data Box Gateway draagt gegevens over van en naar Azure, maar het is een virtueel apparaat, geen harde schijf. Virtuele machines die zich in uw on-premises netwerk bevinden, schrijven gegevens naar Data Box Gateway met behulp van de NFS- en SMB-protocollen. Het apparaat draagt vervolgens uw gegevens over naar Azure.

Sleutelselectiecriteria

Kies voor scenario's voor gegevensoverdracht het juiste systeem voor uw behoeften door de volgende vragen te beantwoorden:

  • Moet u grote hoeveelheden gegevens overdragen, waarbij dit via een internetverbinding te lang, onbetrouwbaar of te duur zou zijn? Zo ja, overweeg dan fysieke overdracht.

  • Geeft u de voorkeur aan een script voor uw taken voor gegevensoverdracht, zodat ze herbruikbaar zijn? Als dat het zo is, selecteert u een van de opdrachtregelopties of Data Factory.

  • Moet u een grote hoeveelheid gegevens overdragen via een netwerkverbinding? Als dat het zo is, selecteert u een optie die is geoptimaliseerd voor big data.

  • Moet u gegevens overdragen naar of van een relationele database? Zo ja, kies dan een optie die ondersteuning biedt voor een of meer relationele databases. Voor sommige van deze opties is ook een Hadoop-cluster vereist.

  • Hebt u een geautomatiseerde gegevenspijplijn of werkstroomindeling nodig? Zo ja, dan kunt u Data Factory overwegen.

Mogelijkheidsmatrix

De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.

Fysieke overdracht

Mogelijkheid De Import/Export-service Data Box
Formulierfactor Interne SATA HDD's of SDD's Veilig, manipulatiebestendig, enkel hardwareapparaat
Microsoft beheert verzendlogistiek Nee Ja
Integreert met partnerproducten Nee Ja
Aangepast apparaat Nee Ja

Opdrachtregelprogramma's

Hadoop/HDInsight:

Mogelijkheid Distcp Sqoop Hadoop CLI
Geoptimaliseerd voor big data Ja Ja Ja
Kopiëren naar relationele database Nee Ja Nee
Kopiëren uit relationele database Nee Ja Nee
Kopiëren naar Blob Storage Ja Ja Ja
Kopiëren vanuit Blob Storage Ja Ja Nee
Kopiëren naar Data Lake Storage Ja Ja Ja
Kopiëren vanuit Data Lake Storage Ja Ja Nee

Andere:

Mogelijkheid Azure CLI AzCopy PowerShell AdlCopy PolyBase
Compatibele platforms Linux, OS X, Windows Linux, Windows Windows Linux, OS X, Windows SQL Server, Azure Synapse Analytics
Geoptimaliseerd voor big data Nee Ja Nee Ja 1 Ja 2
Kopiëren naar relationele database Nee Nee Nee Nee Ja
Kopiëren uit relationele database Nee Nee Nee Nee Ja
Kopiëren naar Blob Storage Ja Ja Ja Nee Ja
Kopiëren vanuit Blob Storage Ja Ja Ja Ja Ja
Kopiëren naar Data Lake Storage Nee Ja Ja Ja Ja
Kopiëren vanuit Data Lake Storage Nee Nee Ja Ja Ja

[1] AdlCopy is geoptimaliseerd voor het overdragen van big data bij gebruik met een Data Lake Analytics-account.

[2] PolyBase-prestaties kunnen worden verbeterd door berekeningen naar Hadoop te pushen en Uitschaalgroepen van PolyBase te gebruiken om parallelle gegevensoverdracht tussen SQL Server-exemplaren en Hadoop-knooppunten mogelijk te maken.

Grafische interfaces, gegevenssynchronisatie en gegevenspijplijnen

Mogelijkheid Azure Storage Explorer Azure Portal * Data Factory Data Box Gateway
Geoptimaliseerd voor big data Nee Nee Ja Ja
Kopiëren naar relationele database Nee Nee Ja Nee
Kopiëren uit relationele database Nee Nee Ja Nee
Kopiëren naar Blob Storage Ja Nee Ja Ja
Kopiëren vanuit Blob Storage Ja Nee Ja Nee
Kopiëren naar Data Lake Storage Nee Nee Ja Nee
Kopiëren vanuit Data Lake Storage Nee Nee Ja Nee
Uploaden naar Blob Storage Ja Ja Ja Ja
Uploaden naar Data Lake Storage Ja Ja Ja Ja
Gegevensoverdrachten organiseren Nee Nee Ja Nee
Aangepaste gegevenstransformaties Nee Nee Ja Nee
Prijsmodel Gratis Gratis Betalen per gebruik Betalen per eenheid

* Azure Portal vertegenwoordigt in dit geval de op het web gebaseerde hulpprogramma's voor verkennen van Blob Storage en Data Lake Storage.

Medewerkers

Dit artikel wordt onderhouden door Microsoft. Het is oorspronkelijk geschreven door de volgende inzenders.

Hoofdauteur:

Volgende stappen