Az Azure Storage és az Azure HDInsight-fürtök együttes használata
Az adatokat az Azure Blob Storage-ban vagy az Azure Data Lake Storage Gen2-ben tárolhatja. Vagy ezek kombinációja. Ezek a tárolási lehetőségek lehetővé teszik a számítási célokra használt HDInsight-fürtök biztonságos törlését felhasználói adatok elvesztése nélkül.
Az Apache Hadoop támogatja az alapértelmezett fájlrendszer fogalmát. Az alapértelmezett fájlrendszer egy alapértelmezett sémát és szolgáltatót is jelent. A relatív elérési utak feloldásához is használható. A HDInsight-fürtlétrehozási folyamat során megadhat egy blobtárolót az Azure Storage-ban alapértelmezett fájlrendszerként. Vagy a HDInsight 3.6-os verziójával az Azure Blob Storage-t vagy az Azure Data Lake Storage Gen2-t választhatja alapértelmezett fájlrendszerként néhány kivétellel.
Ebből a cikkből megtudhatja, hogyan használható az Azure Storage a HDInsight-fürtökkel.
- A Data Lake Storage Gen2 HDInsight-fürtökkel való működésének megismeréséhez tekintse meg az Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel című témakört.
- A HDInsight-fürt létrehozásával kapcsolatos további információkért lásd : Apache Hadoop-fürtök létrehozása a HDInsightban.
Fontos
A BlobStorage típusú tárfiók csak a HDInsight-fürtök másodlagos tárolójaként használható.
Tárfiók altípusa | Támogatott szolgáltatások | Támogatott teljesítményszintek | Nem támogatott teljesítményszintek | Támogatott hozzáférési szintek |
---|---|---|---|---|
StorageV2 (általános célú v2) | Blob | Standard | Prémium | Gyakori elérésű, ritka elérésű, archív* |
Tároló (általános célú v1) | Blob | Standard | Prémium | n/a |
BlobStorage | Blob | Standard | Prémium | Gyakori elérésű, ritka elérésű, archív* |
Nem javasoljuk, hogy az alapértelmezett blobtárolót használja az üzleti adatok tárolásához. Az alapértelmezett blobtárolót ajánlatos törölni minden egyes használat után. Az alapértelmezett tároló alkalmazás- és rendszernaplókat tartalmaz. A tároló törlése előtt gondoskodjon a naplók begyűjtéséről.
Egy blobtároló megosztása több fürt alapértelmezett fájlrendszereként nem támogatott.
Feljegyzés
Az archív hozzáférési szint egy offline szint, amely több órás lekérési késéssel rendelkezik, és nem ajánlott a HDInsighttal való használathoz. További információ: Archív hozzáférési szint.
Fájlok elérése a fürtön belülről
Feljegyzés
Az Azure Storage csapata megszüntette az összes aktív fejlesztést a WASB-ben, és azt javasolja minden ügyfélnek, hogy használja az ABFS-illesztőprogramot a Blob és az ADLS gen2 használatához. További információ: The Azure Blob Filesystem driver (ABFS): Dedikált Azure Storage-illesztőprogram a Hadoophoz
A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.
wasb://<containername>@<accountname>.blob.core.windows.net/<file.path>/ wasbs://<containername>@<accountname>.blob.core.windows.net/<file.path>/
A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:
wasb:///<file.path>/ wasbs:///<file.path>/
A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.
/<file.path>/
Adatelérési példák
Ilyenek például a fürt fő csomópontjához tartozó ssh-kapcsolat . A példák mindhárom URI-sémát használják. Cserélje le és STORAGEACCOUNT
cserélje le CONTAINERNAME
a megfelelő értékeket
Néhány hdfs-parancs
Hozzon létre egy fájlt a helyi tárolóban.
touch testFile.txt
Címtárak létrehozása a fürttárolóban.
hdfs dfs -mkdir wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/ hdfs dfs -mkdir wasbs:///sampledata2/ hdfs dfs -mkdir /sampledata3/
Adatok másolása a helyi tárolóból a fürttárolóba.
hdfs dfs -copyFromLocal testFile.txt wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/ hdfs dfs -copyFromLocal testFile.txt wasbs:///sampledata2/ hdfs dfs -copyFromLocal testFile.txt /sampledata3/
Címtártartalom listázása a fürttárolóban.
hdfs dfs -ls wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/ hdfs dfs -ls wasbs:///sampledata2/ hdfs dfs -ls /sampledata3/
Feljegyzés
Amikor a HDInsight eszközön kívüli blobokkal dolgozik, a legtöbb segédprogram nem ismeri fel a WASB formátumot, és ehelyett alapvető elérési út formátumot vár, például a következőt: example/jars/hadoop-mapreduce-examples.jar
.
Hive-tábla létrehozása
Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az egyik LOCATION
bejegyzést használja.
DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
t1 string,
t2 string,
t3 string,
t4 string,
t5 string,
t6 string,
t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/example/data/';
LOCATION 'wasbs:///example/data/';
LOCATION '/example/data/';
Fájlok elérése külső fürtből
A Microsoft a következő eszközöket biztosítja az Azure Storage használatához:
Eszköz | Linux | OS X | Windows |
---|---|---|---|
Azure Portalra | ✔ | ✔ | ✔ |
Azure CLI | ✔ | ✔ | ✔ |
Azure PowerShell | ✔ | ||
AzCopy | ✔ | ✔ |
Az Ambari tárolási útvonalának azonosítása
A konfigurált alapértelmezett tároló teljes elérési útjának azonosításához lépjen a következőre:
HDFS-konfigurációk>, és adja meg
fs.defaultFS
a szűrő beviteli mezőjét.Annak ellenőrzéséhez, hogy a Wasb Store másodlagos tárolóként van-e konfigurálva, lépjen a következőre:
HDFS-konfigurációk>, és adja meg
blob.core.windows.net
a szűrő beviteli mezőjét.
Az elérési út az Ambari REST API-val való beszerzéséhez tekintse meg az alapértelmezett tároló lekérését.
Blobtárolók
A blobok használatához először hozzon létre egy Azure Storage-fiókot. Ennek a lépésnek a részeként meg kell adnia egy Azure-régiót, ahol a tárfiók létrejön. A fürtnek és a tárfióknak ugyanabban a régióban kell lennie. A Hive metaadattár SQL Server-adatbázisának és az Apache Oozie-metaadattár SQL Server-adatbázisnak ugyanabban a régióban kell lennie.
Akárhol él, mindegyik létrehozott blob az Azure Storage-fiókban lévő tárolóhoz tartozik. Ez a tároló lehet a HDInsighton kívül létrehozott meglévő blob. Vagy lehet egy HDInsight-fürthöz létrehozott tároló.
Az alapértelmezett Blob-tároló a fürtre jellemző információkat, például a feladatelőzményeket és a naplókat tárolja. Ne osszon meg alapértelmezett Blob tárolókat több HDInsight-fürttel. Ez a művelet sérült lehet a feladatelőzményekben. Javasoljuk, hogy minden fürthöz használjon másik tárolót. Az alapértelmezett tárfiók helyett helyezzen el megosztott adatokat az összes releváns fürthöz megadott csatolt tárfiókra. A kapcsolt tárfiókok konfigurálásáról további információért lásd: HDInsight-fürtök létrehozása. De újból felhasználhatja az alapértelmezett tárolókat az eredeti HDInsight fürt törlése után. A HBase-fürtök esetében a HBase-táblaséma és -adatok megőrzéséhez hozzon létre egy új HBase-fürtöt a törölt HBase-fürt által használt alapértelmezett blobtárolóval
Feljegyzés
A biztonságos átvitelt igénylő funkció biztonságos kapcsolaton keresztül kényszeríti ki a fiókra irányuló összes kérést. Ezt a funkciót csak a HDInsight-fürt 3.6-os vagy újabb verziója támogatja. További információ: Apache Hadoop-fürt létrehozása biztonságos átviteli tárfiókokkal az Azure HDInsightban.
További tárfiókok használata
HDInsight-fürt létrehozásakor meg kell adnia azt az Azure Storage-fiókot, amelyet a fürthöz társítani kívánja. Emellett hozzáadhat további tárfiókokat ugyanabból az Azure-előfizetésből vagy különböző Azure-előfizetésekből a létrehozási folyamat során vagy a fürt létrehozása után. Útmutatás további tárfiókok hozzáadásához: HDInsight-fürtök létrehozása.
Figyelmeztetés
A HDInsight-fürtön kívül más helyen lévő további tárfiók használata nem támogatott.
Következő lépések
Ebből a cikkből megtanulta, hogyan használhat HDFS-kompatibilis Azure-tárolót a HDInsighttal. Ez a tároló lehetővé teszi, hogy adaptálható, hosszú távú archiválási adatgyűjtő megoldásokat hozzon létre, és a HDInsight használatával oldja fel a tárolt strukturált és strukturálatlan adatokon belüli információkat.
További információk:
- Rövid útmutató: Apache Hadoop-fürt létrehozása
- Oktatóanyag: HDInsight-fürtök létrehozása
- Az Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel
- Adatok feltöltése a HDInsightba
- Oktatóanyag: Adatok kinyeréséről, átalakításáról és betöltéséről interaktív lekérdezéssel az Azure HDInsightban
- Az Azure Storage közös hozzáférésű jogosultságkódok használata az adathozzáférés korlátozásához a HDInsightban