Apache Hadoop-feladatok adatainak feltöltése a HDInsightban
A HDInsight hadoop elosztott fájlrendszert (HDFS) biztosít az Azure Storage és az Azure Data Lake Storage használatával. Ez a tár a Gen2-t is tartalmazza. Az Azure Storage és a Data Lake Storage Gen2 HDFS-bővítményként lett kialakítva. Lehetővé teszik a Hadoop-környezet összes összetevőjét, hogy közvetlenül az általa kezelt adatokon működjenek. Az Azure Storage, a Data Lake Storage Gen2 különböző fájlrendszerek. A rendszerek az adatok és számítások tárolására vannak optimalizálva. Az Azure Storage használatának előnyeiről további információt az Azure Storage használata a HDInsighttal című témakörben talál. Lásd még: A Data Lake Storage Gen2 használata a HDInsighttal.
Előfeltételek
A kezdés előtt jegyezze fel a következő követelményeket:
- Egy Azure-beli HDInsight-fürt. Útmutatásért tekintse meg az Azure HDInsight használatának első lépéseit.
- A következő cikkek ismerete:
Adatok feltöltése az Azure Storage-ba
Segédeszközök
A Microsoft az alábbi segédprogramokat biztosítja az Azure Storage használatához:
Eszköz | Linux | OS X | Windows |
---|---|---|---|
Azure Portalra | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ | |
Hadoop parancs | ✔ | ✔ | ✔ |
Feljegyzés
A Hadoop parancs csak a HDInsight-fürtön érhető el. A parancs csak a helyi fájlrendszerből az Azure Storage-ba való adatbetöltést teszi lehetővé.
Hadoop parancssor
A Hadoop parancssor csak akkor hasznos az adatok Azure Storage-blobba való tárolásához, ha az adatok már megtalálhatók a fürtfőcsomóponton.
A Hadoop parancs használatához először SSH vagy PuTTY használatával kell csatlakoznia a fejcsomóponthoz.
A csatlakozás után a következő szintaxissal tölthet fel egy fájlt a tárolóba.
hadoop fs -copyFromLocal <localFilePath> <storageFilePath>
Például: hadoop fs -copyFromLocal data.txt /example/data/data.txt
Mivel a HDInsight alapértelmezett fájlrendszere az Azure Storage-ban van, a /example/data/data.txt valójában az Azure Storage-ban található. A fájlra a következőképpen is hivatkozhat:
wasbs:///example/data/data.txt
Vagy
wasbs://<ContainerName>@<StorageAccountName>.blob.core.windows.net/example/data/davinci.txt
A fájlokkal működő egyéb Hadoop-parancsok listáját lásd: https://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-common/FileSystemShell.html
Figyelmeztetés
Apache HBase-fürtök esetén az adatok írásakor használt alapértelmezett blokkméret 256 KB. Bár ez jól működik HBase API-k vagy REST API-k használatakor, a hadoop
~12 GB-nál nagyobb adatok írására szolgáló hdfs dfs
parancsok hibát eredményeznek. További információkért tekintse meg a blob írására vonatkozó tárolási kivételt.
Grafikus ügyfelek
Emellett számos alkalmazás biztosít grafikus felületet az Azure Storage használatához. Az alábbi táblázat a következő alkalmazások listáját tartalmazza:
Ügyfél | Linux | OS X | Windows |
---|---|---|---|
Microsoft Visual Studio Tools for HDInsight | ✔ | ✔ | ✔ |
Azure Storage Explorer | ✔ | ✔ | ✔ |
Cerulea |
✔ | ||
CloudXplorer | ✔ | ||
CloudBerry Explorer a Microsoft Azure-hoz | ✔ | ||
Cyberduck | ✔ | ✔ |
Az Azure Storage csatlakoztatása helyi meghajtóként
Lásd: Az Azure Storage csatlakoztatása helyi meghajtóként.
Feltöltés szolgáltatások használatával
Azure Data Factory
Az Azure Data Factory szolgáltatás egy teljes körűen felügyelt szolgáltatás az adatok írásához: tárolási, feldolgozási és áthelyezési szolgáltatások egyszerűsített, adaptálható és megbízható adat-előállítási folyamatokba.
Tárolási típus | Dokumentáció |
---|---|
Azure Blob Storage | Adatok másolása az Azure Blob Storage-be vagy onnan máshová az Azure Data Factoryvel |
(.. /data-factory/connector-azure-data-lake-store.md) | |
Azure Data Lake Storage Gen2 | Adatok betöltése az Azure Data Lake Storage Gen2-be az Azure Data Factoryvel |
Apache Sqoop
A Sqoop egy olyan eszköz, amely adatokat továbbít a Hadoop és a relációs adatbázisok között. Segítségével adatokat importálhat egy relációs adatbázis-kezelő rendszerből (RDBMS), például SQL Serverből, MySQL-ből vagy Oracle-ből. Ezután a Hadoop elosztott fájlrendszerbe (HDFS). Alakítsa át az adatokat a Hadoopban a MapReduce vagy a Hive használatával, majd exportálja az adatokat egy RDBMS-be.
További információ: A Sqoop használata a HDInsighttal.
Fejlesztési SDK-k
Az Azure Storage egy Azure SDK-val is elérhető a következő programozási nyelvekről:
- .NET
- Java
- Node.js
- PHP
- Python
- Ruby
Az Azure SDK-k telepítésével kapcsolatos további információkért lásd : Azure-letöltések
Következő lépések
Most, hogy megismerte, hogyan szerezhet be adatokat a HDInsightba, olvassa el az alábbi cikkeket az elemzés megismeréséhez: