Apache Hadoop-feladatok adatainak feltöltése a HDInsightban
A HDInsight egy Hadoop elosztott fájlrendszert (HDFS) biztosít az Azure Storage-on keresztül, és Azure Data Lake Storage. Ebbe a tárolóba tartozik az 1. generációs és a Gen2. Az Azure Storage, a Data Lake Storage Gen1 és a Gen2 HDFS-bővítményként van kialakítva. Lehetővé teszik, hogy a Hadoop-környezetben lévő összetevők teljes készlete közvetlenül az általa kezelt adatokon működjön. Az Azure Storage, Data Lake Storage Gen1 és Gen2 különböző fájlrendszerek. A rendszerek az adatok és számítások tárolására vannak optimalizálva. Az Azure Storage használatának előnyeiről további információt az Azure Storage használata a HDInsighttal című témakörben talál. Lásd még: A Data Lake Storage Gen1 használata a HDInsighttal és a Data Lake Storage Gen2 használata a HDInsighttal.
Előfeltételek
A kezdés előtt vegye figyelembe a következő követelményeket:
- Egy Azure-beli HDInsight-fürt. Útmutatásért lásd: Az Azure HDInsight használatának első lépései.
- A következő cikkek ismerete:
Adatok feltöltése az Azure Storage-ba
Segédprogramok
A Microsoft a következő segédprogramokat biztosítja az Azure Storage használatához:
Eszköz | Linux | OS X | Windows |
---|---|---|---|
Azure Portal | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Hadoop-parancs | ✔ | ✔ | ✔ |
Megjegyzés
A Hadoop parancs csak a HDInsight-fürtön érhető el. A parancs csak a helyi fájlrendszerből tölt be adatokat az Azure Storage-ba.
Hadoop parancssor
A Hadoop parancssor csak akkor hasznos az adatok Azure Storage-blobba való tárolásához, ha az adatok már megtalálhatók a fürt átjárócsomópontján.
A Hadoop parancs használatához először SSH vagy PuTTY használatával kell csatlakoznia az átjárócsomóponthoz.
A csatlakozás után az alábbi szintaxissal tölthet fel egy fájlt a tárolóba.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Például: hadoop fs -copyFromLocal data.txt /example/data/data.txt
Mivel a HDInsight alapértelmezett fájlrendszere az Azure Storage-ban található, a /example/data/data.txt valójában az Azure Storage-ban van. A fájlra a következőképpen is hivatkozhat:
wasbs:///example/data/data.txt
vagy
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
A fájlokkal működő egyéb Hadoop-parancsok listáját lásd: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Figyelmeztetés
Apache HBase-fürtökön az adatok írásakor használt alapértelmezett blokkméret 256 KB. Bár ez jól működik HBase API-k vagy REST API-k használata esetén, a hadoop
vagy hdfs dfs
parancsokkal ~12 GB-nál nagyobb adatok írására vonatkozó parancsok hibát eredményeznek. További információ: Tárolási kivétel a blobra való íráshoz.
Grafikus ügyfelek
Emellett számos alkalmazás biztosít grafikus felületet az Azure Storage használatához. Az alábbi táblázat az alábbi alkalmazások listáját tartalmazza:
Ügyfél | Linux | OS X | Windows |
---|---|---|---|
Microsoft Visual Studio Tools for HDInsight | ✔ | ✔ | ✔ |
Azure Storage Explorer | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
CloudBerry Explorer a Microsoft Azure-hoz | ✔ | ||
Cyberduck | ✔ | ✔ |
Azure Storage csatlakoztatása helyi meghajtóként
Lásd: Az Azure Storage csatlakoztatása helyi meghajtóként.
Feltöltés szolgáltatások használatával
Azure Data Factory
A Azure Data Factory szolgáltatás egy teljes körűen felügyelt szolgáltatás az adatok írásához: a tárolási, feldolgozási és áthelyezési szolgáltatásokat egyszerűsített, adaptálható és megbízható adattermelési folyamatokba.
Tárolási típus | Dokumentáció |
---|---|
Azure Blob Storage | Adatok másolása az Azure Blob Storage-be vagy onnan máshová az Azure Data Factoryvel |
1. generációs Azure Data Lake Storage | Adatok másolása Azure Data Lake Storage Gen1-be vagy onnan a Azure Data Factory használatával |
2. generációs Azure Data Lake Storage | Adatok betöltése Azure Data Lake Storage Gen2 Azure Data Factory |
Apache Sqoop
A Sqoop egy olyan eszköz, amelyet a Hadoop és a relációs adatbázisok közötti adatátvitelre terveztek. Segítségével adatokat importálhat egy relációs adatbázis-kezelő rendszerből (RDBMS), például SQL Server, MySQL-ből vagy Oracle-ből. Ezután a Hadoop elosztott fájlrendszerbe (HDFS). Alakítsa át az adatokat a Hadoopban a MapReduce vagy a Hive használatával, majd exportálja az adatokat egy RDBMS-be.
További információ: A Sqoop használata a HDInsighttal.
Fejlesztési SDK-k
Az Azure Storage egy Azure SDK-val is elérhető a következő programozási nyelvekről:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Az Azure SDK-k telepítésével kapcsolatos további információkért lásd: Azure-letöltések
Következő lépések
Most, hogy megismerte, hogyan szerezhet be adatokat a HDInsightba, olvassa el az alábbi cikkeket az elemzés megismeréséhez: