Överföra data till och från Azure
Det finns flera alternativ för att överföra data till och från Azure, beroende på dina behov.
Att använda fysisk maskinvara för att överföra data till Azure är ett bra alternativ när:
- Nätverket är långsamt eller opålitligt.
- Att få mer nätverksbandbredd är kostnadsöverkomligt.
- Säkerhets- eller organisationsprinciper tillåter inte utgående anslutningar när du hanterar känsliga data.
Om ditt primära problem är hur lång tid det tar att överföra dina data kanske du vill köra ett test för att kontrollera om nätverksöverföringen är långsammare än fysisk transport.
Det finns två huvudsakliga alternativ för fysisk transport av data till Azure:
Med Azure Import/Export-tjänsten kan du på ett säkert sätt överföra stora mängder data till Azure Blob Storage eller Azure Files genom att skicka interna SATA-hårddiskar eller SDD:er till ett Azure-datacenter. Du kan också använda den här tjänsten för att överföra data från Azure Storage till hårddiskar och få enheterna levererade till dig för inläsning lokalt.
Azure Data Box är en Microsoft-tillhandahållen installation som fungerar ungefär som import-/exporttjänsten. Med Data Box levererar Microsoft en egenutvecklad, säker och manipuleringsbeständig överföringsapparat och hanterar logistiken från slutpunkt till slutpunkt som du kan spåra via portalen. En fördel med Data Box-tjänsten är användarvänlighet. Du behöver inte köpa flera hårddiskar, förbereda dem och överföra filer till var och en. Data Box stöds av många branschledande Azure-partner för att göra det enklare att sömlöst använda offlinetransport till molnet från sina produkter.
Tänk på de här alternativen när du vill ha skriptad och programmatisk dataöverföring:
Azure CLI är ett plattformsoberoende verktyg som gör att du kan hantera Azure-tjänster och ladda upp data till Storage.
AzCopy. Använd AzCopy från en Windows - eller Linux-kommandorad för att enkelt kopiera data till och från Blob Storage, Azure File Storage och Azure Table Storage med optimala prestanda. AzCopy har stöd för samtidighet och parallellism, och du kan återuppta avbrutna kopieringsåtgärder. Du kan också använda AzCopy för att kopiera data från AWS till Azure. För programmatisk åtkomst är Microsoft Azure Storage Data Movement Library det grundläggande ramverket som driver AzCopy. Det tillhandahålls som ett .NET Core-bibliotek.
Med PowerShell är PowerShell-cmdleten Start-AzureStorageBlobCopy ett alternativ för Windows-administratörer som är vana vid PowerShell.
Med AdlCopy kan du kopiera data från Blob Storage till Azure Data Lake Storage. Den kan också användas för att kopiera data mellan två Data Lake Storage-konton. Det kan dock inte användas för att kopiera data från Data Lake Storage till Blob Storage.
Distcp används för att kopiera data till och från en HDInsight-klusterlagring (WASB) till ett Data Lake Storage-konto.
Sqoop är ett Apache-projekt och en del av Hadoop-ekosystemet. Den är förinstallerad i alla HDInsight-kluster. Den tillåter dataöverföring mellan ett HDInsight-kluster och relationsdatabaser som SQL, Oracle, MySQL och så vidare. Sqoop är en samling relaterade verktyg, inklusive import- och exportverktyg. Sqoop fungerar med HDInsight-kluster med hjälp av antingen Blob Storage eller Data Lake Storage-ansluten lagring.
PolyBase är en teknik som kommer åt data utanför en databas via T-SQL-språket. I SQL Server 2016 kan du köra frågor på externa data i Hadoop eller importera eller exportera data från Blob Storage. I Azure Synapse Analytics kan du importera eller exportera data från Blob Storage och Data Lake Storage. PolyBase är för närvarande den snabbaste metoden för att importera data till Azure Synapse Analytics.
Använd Kommandoraden Hadoop när du har data som finns på en huvudnod i HDInsight-klustret. Du kan använda
hadoop -copyFromLocal
kommandot för att kopiera dessa data till klustrets anslutna lagring, till exempel Blob Storage eller Data Lake Storage. För att kunna använda Hadoop-kommandot måste du först ansluta till huvudnoden. När du är ansluten kan du ladda upp en fil till lagringen.
Överväg följande alternativ om du bara överför några filer eller dataobjekt och inte behöver automatisera processen.
Azure Storage Explorer är ett plattformsoberoende verktyg som gör att du kan hantera innehållet i dina Azure Storage-konton. Du kan ladda upp, ladda ned och hantera blobar, filer, köer, tabeller och Azure Cosmos DB-entiteter. Använd den med Blob Storage för att hantera blobar och mappar och ladda upp och ladda ned blobar mellan ditt lokala filsystem och Blob Storage eller mellan lagringskonton.
Azure-portalen. Både Blob Storage och Data Lake Storage tillhandahåller ett webbaserat gränssnitt för att utforska filer och ladda upp nya filer. Det här alternativet är bra om du inte vill installera verktyg eller utfärda kommandon för att snabbt utforska dina filer, eller om du vill ladda upp en handfull nya.
Azure Data Factory är en hanterad tjänst som passar bäst för regelbunden överföring av filer mellan många Azure-tjänster, lokala system eller en kombination av de två. Genom att använda Data Factory kan du skapa och schemalägga datadrivna arbetsflöden som kallas pipelines som matar in data från olika datalager. Data Factory kan bearbeta och transformera data med hjälp av beräkningstjänster som Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics och Azure Machine Learning. Du kan skapa datadrivna arbetsflöden för att orkestrera och automatisera dataflytt och datatransformering.
Pipelines och aktiviteter i Data Factory och Azure Synapse Analytics kan användas för att konstruera datadrivna arbetsflöden från slutpunkt till slutpunkt för dina scenarier för dataflytt och databearbetning. Dessutom används Azure Data Factory-integreringskörningen för att tillhandahålla dataintegreringsfunktioner i olika nätverksmiljöer.
Azure Data Box Gateway överför data till och från Azure, men det är en virtuell installation, inte en hårddisk. Virtuella datorer som finns i ditt lokala nätverk skriver data till Data Box Gateway med hjälp av NFS-protokollen (Network File System) och SMB. Enheten överför sedan dina data till Azure.
För dataöverföringsscenarier väljer du rätt system för dina behov genom att svara på följande frågor:
Behöver du överföra stora mängder data, där det skulle ta för lång tid att göra det via en Internetanslutning, vara opålitligt eller för dyrt? Om ja, överväg fysisk överföring.
Föredrar du att skripta dina dataöverföringsuppgifter, så att de kan återanvändas? I så fall väljer du något av kommandoradsalternativen eller Data Factory.
Behöver du överföra en stor mängd data via en nätverksanslutning? I så fall väljer du ett alternativ som är optimerat för stordata.
Behöver du överföra data till eller från en relationsdatabas? Om ja väljer du ett alternativ som stöder en eller flera relationsdatabaser. Vissa av dessa alternativ kräver också ett Hadoop-kluster.
Behöver du en automatiserad datapipeline eller arbetsflödesorkestrering? Om ja kan du överväga Data Factory.
I följande tabeller sammanfattas de viktigaste skillnaderna i funktioner.
Kapacitet | Import-/exporttjänsten | Data Box |
---|---|---|
Formfaktor | Interna SATA-hårddiskar eller SDD | Säker, manipuleringssäker, enkel maskinvaruinstallation |
Microsoft hanterar leveranslogistik | Nej | Ja |
Integrerar med partnerprodukter | Nej | Ja |
Anpassad installation | Nej | Ja |
Hadoop/HDInsight:
Kapacitet | DistCp | Sqoop | Hadoop CLI |
---|---|---|---|
Optimerad för stordata | Ja | Ja | Ja |
Kopiera till relationsdatabas | Nej | Ja | Nej |
Kopiera från relationsdatabas | Nej | Ja | Nej |
Kopiera till Blob Storage | Ja | Ja | Ja |
Kopiera från Blob Storage | Ja | Ja | Nej |
Kopiera till Data Lake Storage | Ja | Ja | Ja |
Kopiera från Data Lake Storage | Ja | Ja | Nej |
Annat:
Kapacitet | Azure CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Kompatibla plattformar | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse Analytics |
Optimerad för stordata | Nej | Ja | Nej | Ja 1 | Ja 2 |
Kopiera till relationsdatabas | Nej | Nej | Nej | Nej | Ja |
Kopiera från relationsdatabas | Nej | Nej | Nej | Nej | Ja |
Kopiera till Blob Storage | Ja | Ja | Ja | No | Ja |
Kopiera från Blob Storage | Ja | Ja | Ja | Ja | Ja |
Kopiera till Data Lake Storage | Nej | Ja | Ja | Ja | Ja |
Kopiera från Data Lake Storage | Nej | Nej | Ja | Ja | Ja |
[1] AdlCopy är optimerat för överföring av stordata när det används med ett Data Lake Analytics-konto.
[2] PolyBase-prestanda kan ökas genom att push-överföra beräkningen till Hadoop och använda PolyBase-utskalningsgrupper för att möjliggöra parallell dataöverföring mellan SQL Server-instanser och Hadoop-noder.
Kapacitet | Azure Storage Explorer | Azure Portal * | Data Factory | Data Box Gateway |
---|---|---|---|---|
Optimerad för stordata | Nej | Nej | Ja | Ja |
Kopiera till relationsdatabas | Nej | Nej | Ja | Nej |
Kopiera från relationsdatabas | Nej | Nej | Ja | Nej |
Kopiera till Blob Storage | Ja | No | Ja | Ja |
Kopiera från Blob Storage | Ja | No | Ja | Nej |
Kopiera till Data Lake Storage | Nej | Nej | Ja | Nej |
Kopiera från Data Lake Storage | Nej | Nej | Ja | Nej |
Ladda upp till Blob Storage | Ja | Ja | Ja | Ja |
Ladda upp till Data Lake Storage | Ja | Ja | Ja | Ja |
Samordna dataöverföringar | Nej | Nej | Ja | Nej |
Anpassade datatransformeringar | Nej | Nej | Ja | Nej |
Prismodell | Kostnadsfri | Kostnadsfri | Betala per användning | Betala per enhet |
Azure Portal representerar i det här fallet de webbaserade utforskningsverktygen för Blob Storage och Data Lake Storage.
Den här artikeln underhålls av Microsoft. Det har ursprungligen skrivits av följande medarbetare.
Huvudförfattare:
- Zoiner Tejada | VD och arkitekt