Apache Hadoop-feladatok adatainak feltöltése a HDInsightban

Cikk
07/25/2024

A HDInsight hadoop elosztott fájlrendszert (HDFS) biztosít az Azure Storage és az Azure Data Lake Storage használatával. Ez a tár a Gen2-t is tartalmazza. Az Azure Storage és a Data Lake Storage Gen2 HDFS-bővítményként lett kialakítva. Lehetővé teszik a Hadoop-környezet összes összetevőjét, hogy közvetlenül az általa kezelt adatokon működjenek. Az Azure Storage, a Data Lake Storage Gen2 különböző fájlrendszerek. A rendszerek az adatok és számítások tárolására vannak optimalizálva. Az Azure Storage használatának előnyeiről további információt az Azure Storage használata a HDInsighttal című témakörben talál. Lásd még: A Data Lake Storage Gen2 használata a HDInsighttal.

Előfeltételek

A kezdés előtt jegyezze fel a következő követelményeket:

Egy Azure-beli HDInsight-fürt. Útmutatásért tekintse meg az Azure HDInsight használatának első lépéseit.
A következő cikkek ismerete:
- Az Azure Storage használata a HDInsighttal
- A Data Lake Storage Gen2 használata a HDInsighttal

Adatok feltöltése az Azure Storage-ba

Segédeszközök

A Microsoft az alábbi segédprogramokat biztosítja az Azure Storage használatához:

Eszköz	Linux	OS X	Windows
Azure Portalra	✔	✔	✔
Azure CLI	✔	✔	✔
Azure PowerShell			✔
AzCopy	✔		✔
Hadoop parancs	✔	✔	✔

Feljegyzés

A Hadoop parancs csak a HDInsight-fürtön érhető el. A parancs csak a helyi fájlrendszerből az Azure Storage-ba való adatbetöltést teszi lehetővé.

Hadoop parancssor

A Hadoop parancssor csak akkor hasznos az adatok Azure Storage-blobba való tárolásához, ha az adatok már megtalálhatók a fürtfőcsomóponton.

A Hadoop parancs használatához először SSH vagy PuTTY használatával kell csatlakoznia a fejcsomóponthoz.

A csatlakozás után a következő szintaxissal tölthet fel egy fájlt a tárolóba.

hadoop fs -copyFromLocal <localFilePath> <storageFilePath>

Például: hadoop fs -copyFromLocal data.txt /example/data/data.txt

Mivel a HDInsight alapértelmezett fájlrendszere az Azure Storage-ban van, a /example/data/data.txt valójában az Azure Storage-ban található. A fájlra a következőképpen is hivatkozhat:

wasbs:///example/data/data.txt

Vagy

wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt

A fájlokkal működő egyéb Hadoop-parancsok listáját lásd: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html

Figyelmeztetés

Apache HBase-fürtök esetén az adatok írásakor használt alapértelmezett blokkméret 256 KB. Bár ez jól működik HBase API-k vagy REST API-k használatakor, a hadoop ~12 GB-nál nagyobb adatok írására szolgáló hdfs dfs parancsok hibát eredményeznek. További információkért tekintse meg a blob írására vonatkozó tárolási kivételt.

Grafikus ügyfelek

Emellett számos alkalmazás biztosít grafikus felületet az Azure Storage használatához. Az alábbi táblázat a következő alkalmazások listáját tartalmazza:

Ügyfél	Linux	OS X	Windows
Microsoft Visual Studio Tools for HDInsight	✔	✔	✔
Azure Storage Explorer	✔	✔	✔
`Cerulea`			✔
CloudXplorer			✔
CloudBerry Explorer a Microsoft Azure-hoz			✔
Cyberduck		✔	✔

Az Azure Storage csatlakoztatása helyi meghajtóként

Lásd: Az Azure Storage csatlakoztatása helyi meghajtóként.

Feltöltés szolgáltatások használatával

Azure Data Factory

Az Azure Data Factory szolgáltatás egy teljes körűen felügyelt szolgáltatás az adatok írásához: tárolási, feldolgozási és áthelyezési szolgáltatások egyszerűsített, adaptálható és megbízható adat-előállítási folyamatokba.

Tárolási típus	Dokumentáció
Azure Blob Storage	Adatok másolása az Azure Blob Storage-be vagy onnan máshová az Azure Data Factoryvel
(.. /data-factory/connector-azure-data-lake-store.md)
Azure Data Lake Storage Gen2	Adatok betöltése az Azure Data Lake Storage Gen2-be az Azure Data Factoryvel

Apache Sqoop

A Sqoop egy olyan eszköz, amely adatokat továbbít a Hadoop és a relációs adatbázisok között. Segítségével adatokat importálhat egy relációs adatbázis-kezelő rendszerből (RDBMS), például SQL Serverből, MySQL-ből vagy Oracle-ből. Ezután a Hadoop elosztott fájlrendszerbe (HDFS). Alakítsa át az adatokat a Hadoopban a MapReduce vagy a Hive használatával, majd exportálja az adatokat egy RDBMS-be.

További információ: A Sqoop használata a HDInsighttal.

Fejlesztési SDK-k

Az Azure Storage egy Azure SDK-val is elérhető a következő programozási nyelvekről:

.NET
Java
Node.js
PHP
Python
Ruby

Az Azure SDK-k telepítésével kapcsolatos további információkért lásd : Azure-letöltések

Következő lépések

Most, hogy megismerte, hogyan szerezhet be adatokat a HDInsightba, olvassa el az alábbi cikkeket az elemzés megismeréséhez:

Megosztás a következőn keresztül: