Megosztás a következőn keresztül:


Apache Hadoop-feladatok adatainak feltöltése a HDInsightban

A HDInsight hadoop elosztott fájlrendszert (HDFS) biztosít az Azure Storage és az Azure Data Lake Storage használatával. Ez a tár a Gen2-t is tartalmazza. Az Azure Storage és a Data Lake Storage Gen2 HDFS-bővítményként lett kialakítva. Lehetővé teszik a Hadoop-környezet összes összetevőjét, hogy közvetlenül az általa kezelt adatokon működjenek. Az Azure Storage, a Data Lake Storage Gen2 különböző fájlrendszerek. A rendszerek az adatok és számítások tárolására vannak optimalizálva. Az Azure Storage használatának előnyeiről további információt az Azure Storage használata a HDInsighttal című témakörben talál. Lásd még: A Data Lake Storage Gen2 használata a HDInsighttal.

Előfeltételek

A kezdés előtt jegyezze fel a következő követelményeket:

Adatok feltöltése az Azure Storage-ba

Segédeszközök

A Microsoft az alábbi segédprogramokat biztosítja az Azure Storage használatához:

Eszköz Linux OS X Windows
Azure Portalra
Azure CLI
Azure PowerShell
AzCopy
Hadoop parancs

Feljegyzés

A Hadoop parancs csak a HDInsight-fürtön érhető el. A parancs csak a helyi fájlrendszerből az Azure Storage-ba való adatbetöltést teszi lehetővé.

Hadoop parancssor

A Hadoop parancssor csak akkor hasznos az adatok Azure Storage-blobba való tárolásához, ha az adatok már megtalálhatók a fürtfőcsomóponton.

A Hadoop parancs használatához először SSH vagy PuTTY használatával kell csatlakoznia a fejcsomóponthoz.

A csatlakozás után a következő szintaxissal tölthet fel egy fájlt a tárolóba.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Például: hadoop fs -copyFromLocal data.txt /example/data/data.txt

Mivel a HDInsight alapértelmezett fájlrendszere az Azure Storage-ban van, a /example/data/data.txt valójában az Azure Storage-ban található. A fájlra a következőképpen is hivatkozhat:

wasbs:///example/data/data.txt

Vagy

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

A fájlokkal működő egyéb Hadoop-parancsok listáját lásd: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Figyelmeztetés

Apache HBase-fürtök esetén az adatok írásakor használt alapértelmezett blokkméret 256 KB. Bár ez jól működik HBase API-k vagy REST API-k használatakor, a hadoop ~12 GB-nál nagyobb adatok írására szolgáló hdfs dfs parancsok hibát eredményeznek. További információkért tekintse meg a blob írására vonatkozó tárolási kivételt.

Grafikus ügyfelek

Emellett számos alkalmazás biztosít grafikus felületet az Azure Storage használatához. Az alábbi táblázat a következő alkalmazások listáját tartalmazza:

Ügyfél Linux OS X Windows
Microsoft Visual Studio Tools for HDInsight
Azure Storage Explorer
Cerulea
CloudXplorer
CloudBerry Explorer a Microsoft Azure-hoz
Cyberduck

Az Azure Storage csatlakoztatása helyi meghajtóként

Lásd: Az Azure Storage csatlakoztatása helyi meghajtóként.

Feltöltés szolgáltatások használatával

Azure Data Factory

Az Azure Data Factory szolgáltatás egy teljes körűen felügyelt szolgáltatás az adatok írásához: tárolási, feldolgozási és áthelyezési szolgáltatások egyszerűsített, adaptálható és megbízható adat-előállítási folyamatokba.

Tárolási típus Dokumentáció
Azure Blob Storage Adatok másolása az Azure Blob Storage-be vagy onnan máshová az Azure Data Factoryvel
(.. /data-factory/connector-azure-data-lake-store.md)
Azure Data Lake Storage Gen2 Adatok betöltése az Azure Data Lake Storage Gen2-be az Azure Data Factoryvel

Apache Sqoop

A Sqoop egy olyan eszköz, amely adatokat továbbít a Hadoop és a relációs adatbázisok között. Segítségével adatokat importálhat egy relációs adatbázis-kezelő rendszerből (RDBMS), például SQL Serverből, MySQL-ből vagy Oracle-ből. Ezután a Hadoop elosztott fájlrendszerbe (HDFS). Alakítsa át az adatokat a Hadoopban a MapReduce vagy a Hive használatával, majd exportálja az adatokat egy RDBMS-be.

További információ: A Sqoop használata a HDInsighttal.

Fejlesztési SDK-k

Az Azure Storage egy Azure SDK-val is elérhető a következő programozási nyelvekről:

  • .NET
  • Java
  • Node.js
  • PHP
  • Python
  • Ruby

Az Azure SDK-k telepítésével kapcsolatos további információkért lásd : Azure-letöltések

Következő lépések

Most, hogy megismerte, hogyan szerezhet be adatokat a HDInsightba, olvassa el az alábbi cikkeket az elemzés megismeréséhez: