Přesun dat z a do Azure
V závislosti na vašich potřebách existuje několik možností pro přenos dat do a z Azure.
Fyzický přenos
Použití fyzického hardwaru k přenosu dat do Azure je dobrou volbou v následujících případech:
- Vaše síť je pomalá nebo nespolehlivý.
- Získání větší šířky pásma sítě je nákladné.
- Zásady zabezpečení nebo organizace neumožňují odchozí připojení při práci s citlivými daty.
Pokud je vaším hlavním zájmem, jak dlouho trvá přenos dat, můžete spustit test, abyste ověřili, jestli je přenos sítě pomalejší než fyzický přenos.
Existují dvě hlavní možnosti fyzického přenosu dat do Azure:
Služba Azure Import/Export
Služba Azure Import/Export umožňuje bezpečně přenášet velké objemy dat do služby Azure Blob Storage nebo Azure Files odesláním interních pevných disků SATA (HDD) nebo disků SSD do datacentra Azure. Tuto službu můžete použít také k přenosu dat z Azure Storage na pevné diskové jednotky a k odeslání jednotek pro místní načtení.
Azure Data Box
Azure Data Box je zařízení poskytované Microsoftem, které funguje podobně jako služba Import/Export. S Data Boxem vás Microsoft dodává proprietárním, zabezpečeným a manipulovaným přenosovým zařízením a zpracovává komplexní logistiku, kterou můžete sledovat prostřednictvím portálu. Jednou z výhod služby Data Box je snadné použití. Nemusíte si kupovat několik pevných disků, připravovat je a přenášet soubory do každého z nich. Data Box podporuje mnoho špičkových partnerů Azure, aby bylo snazší bezproblémově používat offline přenos do cloudu ze svých produktů.
Nástroje a rozhraní API příkazového řádku
Zvažte tyto možnosti, pokud chcete mít skriptovaný a programový přenos dat:
Azure CLI je multiplatformní nástroj, který umožňuje spravovat služby Azure a nahrávat data do služby Storage.
AzCopy: Pomocí nástroje AzCopy z příkazového řádku s Windows nebo Linuxem můžete snadno kopírovat data do a ze služby Blob Storage, Azure File Storage a Azure Table Storage s optimálním výkonem. AzCopy podporuje souběžnost a paralelismus a možnost obnovení operací kopírování v případě přerušení. Pomocí azcopy můžete také kopírovat data z AWS do Azure. Pro programový přístup je základní architekturou, která využívá AzCopy, knihovnu Microsoft Azure Storage Data Movement Library . Je k dispozici jako knihovna .NET Core.
V PowerShellu je rutina Prostředí PowerShell Start-AzureStorageBlobCopy možnost pro správce Windows, kteří se používají k PowerShellu.
AdlCopy umožňuje kopírovat data ze služby Blob Storage do Služby Azure Data Lake Storage. Dá se také použít ke kopírování dat mezi dvěma účty Data Lake Storage. Nedá se ale použít ke kopírování dat ze služby Data Lake Storage do služby Blob Storage.
Distcp se používá ke kopírování dat do a z úložiště clusteru HDInsight (WASB) do účtu Data Lake Storage.
Sqoop je projekt Apache a součást ekosystému Hadoop. Je předinstalovaný na všech clusterech HDInsight. Umožňuje přenos dat mezi clusterem HDInsight a relačními databázemi, jako jsou SQL, Oracle, MySQL atd. Sqoop je kolekce souvisejících nástrojů, včetně nástrojů pro import a export. Sqoop funguje s clustery HDInsight pomocí úložiště blob nebo připojeného úložiště Data Lake Storage.
PolyBase je technologie, která přistupuje k datům mimo databázi prostřednictvím jazyka T-SQL. V SQL Serveru 2016 umožňuje spouštět dotazy na externí data v Hadoopu nebo importovat nebo exportovat data ze služby Blob Storage. Ve službě Azure Synapse Analytics můžete importovat nebo exportovat data ze služby Blob Storage a Data Lake Storage. PolyBase je v současné době nejrychlejší metodou importu dat do Azure Synapse Analytics.
Příkazový řádek Hadoop použijte, pokud máte data umístěná v hlavním uzlu clusteru HDInsight. Pomocí příkazu můžete
hadoop -copyFromLocal
tato data zkopírovat do připojeného úložiště clusteru, jako je Blob Storage nebo Data Lake Storage. Abyste mohli použít příkaz Hadoop, musíte se nejprve připojit k hlavnímu uzlu. Po připojení můžete nahrát soubor do úložiště.
Grafické rozhraní
Pokud přenášíte jenom několik souborů nebo datových objektů a nepotřebujete proces automatizovat, zvažte následující možnosti.
Průzkumník služby Azure Storage je multiplatformní nástroj, který umožňuje spravovat obsah účtů Azure Storage. Umožňuje nahrávat, stahovat a spravovat objekty blob, soubory, fronty, tabulky a entity služby Azure Cosmos DB. Použijte ji se službou Blob Storage ke správě objektů blob a složek a nahrání a stahování objektů blob mezi místním systémem souborů a službou Blob Storage nebo mezi účty úložiště.
Azure Portal. Blob Storage i Data Lake Storage poskytují webové rozhraní pro zkoumání souborů a nahrávání nových souborů. Tato možnost je vhodná, pokud nechcete instalovat nástroje nebo vydávat příkazy k rychlému prozkoumání souborů nebo pokud chcete nahrát několik nových.
Synchronizace dat a kanály
Azure Data Factory je spravovaná služba, která nejlépe vyhovuje pravidelnému přenosu souborů mezi mnoha službami Azure, místními systémy nebo kombinací těchto dvou služeb. Pomocí služby Data Factory můžete vytvářet a plánovat pracovní postupy řízené daty označované jako kanály, které ingestují data z různorodých úložišť dat. Data Factory může zpracovávat a transformovat pomocí výpočetních služeb, jako jsou Azure HDInsight Hadoop, Spark, Azure Data Lake Analytics a Azure Machine Learning. Můžete vytvářet pracovní postupy řízené daty pro orchestraci a automatizaci přesunu a transformace dat.
Kanály a aktivity ve službě Data Factory a Azure Synapse Analytics je možné použít k vytváření kompletních pracovních postupů řízených daty pro scénáře přesunu a zpracování dat. Prostředí Azure Data Factory Integration Runtime se navíc používá k poskytování možností integrace dat v různých síťových prostředích.
Azure Data Box Gateway přenáší data do a z Azure, ale jedná se o virtuální zařízení, nikoli pevný disk. Virtuální počítače umístěné v místní síti zapisují data do služby Data Box Gateway pomocí protokolů NFS (Network File System) a SMB. Zařízení pak vaše data přenese do Azure.
Klíčová kritéria výběru
V případě scénářů přenosu dat zvolte vhodný systém pro vaše potřeby zodpovězením těchto otázek:
Potřebujete přenášet velké objemy dat, kde by to trvalo příliš dlouho, bylo by to nespolehlivé nebo příliš drahé? Pokud ano, zvažte fyzický přenos.
Dáváte přednost skriptování úloh přenosu dat, aby byly opakovaně použitelné? Pokud ano, vyberte jednu z možností příkazového řádku nebo Data Factory.
Potřebujete přenést velké množství dat přes síťové připojení? Pokud ano, vyberte možnost optimalizovanou pro velké objemy dat.
Potřebujete přenášet data do relační databáze nebo z této relační databáze? Pokud ano, zvolte možnost, která podporuje jednu nebo více relačních databází. Některé z těchto možností také vyžadují cluster Hadoop.
Potřebujete automatizovaný datový kanál nebo orchestraci pracovních postupů? Pokud ano, zvažte Data Factory.
Matice schopností
Následující tabulky shrnují klíčové rozdíly v možnostech.
Fyzický přenos
Schopnost | Služba Import/Export | Data Box |
---|---|---|
Provedení faktoru | Interní disky SATA HDD nebo SSD | Zabezpečené, odolné proti manipulaci, jedno hardwarové zařízení |
Microsoft spravuje logistiku přepravy | No | Ano |
Integrace s partnerskými produkty | No | Ano |
Vlastní zařízení | No | Ano |
Nástroje příkazového řádku
Hadoop nebo HDInsight:
Schopnost | DistCp | Sqoop | Rozhraní příkazového řádku Hadoop |
---|---|---|---|
Optimalizované pro velké objemy dat | Ano | Ano | Yes |
Kopírování do relační databáze | No | Ano | No |
Kopírování z relační databáze | No | Ano | No |
Kopírování do služby Blob Storage | Ano | Ano | Yes |
Kopírování ze služby Blob Storage | Ano | Ano | No |
Kopírování do Data Lake Storage | Ano | Ano | Yes |
Kopírování ze služby Data Lake Storage | Ano | Ano | No |
Další připojení:
Schopnost | Azure CLI | AzCopy | PowerShell | AdlCopy | PolyBase |
---|---|---|---|---|---|
Kompatibilní platformy | Linux, OS X, Windows | Linux, Windows | Windows | Linux, OS X, Windows | SQL Server, Azure Synapse Analytics |
Optimalizované pro velké objemy dat | No | Ano | No | Ano 1 | Ano 2 |
Kopírování do relační databáze | No | No | No | No | Ano |
Kopírování z relační databáze | No | No | No | No | Ano |
Kopírování do služby Blob Storage | Ano | Ano | Ano | Ne | Ano |
Kopírování ze služby Blob Storage | Ano | Ano | Ano | Ano | Yes |
Kopírování do Data Lake Storage | No | Ano | Ano | Ano | Yes |
Kopírování ze služby Data Lake Storage | No | No | Ano | Ano | Yes |
[1] AdlCopy je optimalizovaná pro přenos velkých objemů dat při použití s účtem Data Lake Analytics.
[2] Výkon PolyBase je možné zvýšit tak, že nasdílíte výpočty do Systému Hadoop a pomocí skupin škálování na více instancí PolyBase povolíte paralelní přenos dat mezi instancemi SQL Serveru a uzly Hadoop.
Grafická rozhraní, synchronizace dat a datové kanály
Schopnost | Azure Storage Explorer | Azure Portal * | Data Factory | Data Box Gateway |
---|---|---|---|---|
Optimalizované pro velké objemy dat | No | No | Ano | Yes |
Kopírování do relační databáze | No | No | Ano | No |
Kopírování z relační databáze | No | No | Ano | No |
Kopírování do služby Blob Storage | Yes | Ne | Ano | Yes |
Kopírování ze služby Blob Storage | Yes | Ne | Ano | No |
Kopírování do Data Lake Storage | No | No | Ano | No |
Kopírování ze služby Data Lake Storage | No | No | Ano | No |
Nahrání do služby Blob Storage | Ano | Ano | Ano | Yes |
Nahrání do Data Lake Storage | Ano | Ano | Ano | Yes |
Orchestrace přenosů dat | No | No | Ano | No |
Vlastní transformace dat | No | No | Ano | No |
Cenový model | Bezplatný | Bezplatný | Platba za využití | Platba za jednotku |
Azure Portal v tomto případě představuje webové nástroje pro zkoumání objektů blob Storage a Data Lake Storage.
Přispěvatelé
Tento článek spravuje Microsoft. Původně byla napsána následujícími přispěvateli.
Hlavní autor:
- Zoiner Tejada | Generální ředitel a architekt
Další kroky
- Co je služba Azure Import/Export?
- Co je Azure Data Box?
- Co je Azure CLI?
- Začínáme s nástrojem AzCopy
- Začínáme s Průzkumníkem služby Storage
- Co je Azure Data Factory?
- Co je Azure Data Box Gateway?