Share via


Apache Hadoop-feladatok adatainak feltöltése a HDInsightban

A HDInsight egy Hadoop elosztott fájlrendszert (HDFS) biztosít az Azure Storage-on keresztül, és Azure Data Lake Storage. Ebbe a tárolóba tartozik az 1. generációs és a Gen2. Az Azure Storage, a Data Lake Storage Gen1 és a Gen2 HDFS-bővítményként van kialakítva. Lehetővé teszik, hogy a Hadoop-környezetben lévő összetevők teljes készlete közvetlenül az általa kezelt adatokon működjön. Az Azure Storage, Data Lake Storage Gen1 és Gen2 különböző fájlrendszerek. A rendszerek az adatok és számítások tárolására vannak optimalizálva. Az Azure Storage használatának előnyeiről további információt az Azure Storage használata a HDInsighttal című témakörben talál. Lásd még: A Data Lake Storage Gen1 használata a HDInsighttal és a Data Lake Storage Gen2 használata a HDInsighttal.

Előfeltételek

A kezdés előtt vegye figyelembe a következő követelményeket:

Adatok feltöltése az Azure Storage-ba

Segédprogramok

A Microsoft a következő segédprogramokat biztosítja az Azure Storage használatához:

Eszköz Linux OS X Windows
Azure Portal
Azure CLI
Azure PowerShell
AzCopy
Hadoop-parancs

Megjegyzés

A Hadoop parancs csak a HDInsight-fürtön érhető el. A parancs csak a helyi fájlrendszerből tölt be adatokat az Azure Storage-ba.

Hadoop parancssor

A Hadoop parancssor csak akkor hasznos az adatok Azure Storage-blobba való tárolásához, ha az adatok már megtalálhatók a fürt átjárócsomópontján.

A Hadoop parancs használatához először SSH vagy PuTTY használatával kell csatlakoznia az átjárócsomóponthoz.

A csatlakozás után az alábbi szintaxissal tölthet fel egy fájlt a tárolóba.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Például: hadoop fs -copyFromLocal data.txt /example/data/data.txt

Mivel a HDInsight alapértelmezett fájlrendszere az Azure Storage-ban található, a /example/data/data.txt valójában az Azure Storage-ban van. A fájlra a következőképpen is hivatkozhat:

wasbs:///example/data/data.txt

vagy

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

A fájlokkal működő egyéb Hadoop-parancsok listáját lásd: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Figyelmeztetés

Apache HBase-fürtökön az adatok írásakor használt alapértelmezett blokkméret 256 KB. Bár ez jól működik HBase API-k vagy REST API-k használata esetén, a hadoop vagy hdfs dfs parancsokkal ~12 GB-nál nagyobb adatok írására vonatkozó parancsok hibát eredményeznek. További információ: Tárolási kivétel a blobra való íráshoz.

Grafikus ügyfelek

Emellett számos alkalmazás biztosít grafikus felületet az Azure Storage használatához. Az alábbi táblázat az alábbi alkalmazások listáját tartalmazza:

Ügyfél Linux OS X Windows
Microsoft Visual Studio Tools for HDInsight
Azure Storage Explorer
Cerulea
CloudXplorer
CloudBerry Explorer a Microsoft Azure-hoz
Cyberduck

Azure Storage csatlakoztatása helyi meghajtóként

Lásd: Az Azure Storage csatlakoztatása helyi meghajtóként.

Feltöltés szolgáltatások használatával

Azure Data Factory

A Azure Data Factory szolgáltatás egy teljes körűen felügyelt szolgáltatás az adatok írásához: a tárolási, feldolgozási és áthelyezési szolgáltatásokat egyszerűsített, adaptálható és megbízható adattermelési folyamatokba.

Tárolási típus Dokumentáció
Azure Blob Storage Adatok másolása az Azure Blob Storage-be vagy onnan máshová az Azure Data Factoryvel
1. generációs Azure Data Lake Storage Adatok másolása Azure Data Lake Storage Gen1-be vagy onnan a Azure Data Factory használatával
2. generációs Azure Data Lake Storage Adatok betöltése Azure Data Lake Storage Gen2 Azure Data Factory

Apache Sqoop

A Sqoop egy olyan eszköz, amelyet a Hadoop és a relációs adatbázisok közötti adatátvitelre terveztek. Segítségével adatokat importálhat egy relációs adatbázis-kezelő rendszerből (RDBMS), például SQL Server, MySQL-ből vagy Oracle-ből. Ezután a Hadoop elosztott fájlrendszerbe (HDFS). Alakítsa át az adatokat a Hadoopban a MapReduce vagy a Hive használatával, majd exportálja az adatokat egy RDBMS-be.

További információ: A Sqoop használata a HDInsighttal.

Fejlesztési SDK-k

Az Azure Storage egy Azure SDK-val is elérhető a következő programozási nyelvekről:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Az Azure SDK-k telepítésével kapcsolatos további információkért lásd: Azure-letöltések

Következő lépések

Most, hogy megismerte, hogyan szerezhet be adatokat a HDInsightba, olvassa el az alábbi cikkeket az elemzés megismeréséhez: