Megosztás a következőn keresztül:


Az Azure Storage és az Azure HDInsight-fürtök együttes használata

Az adatokat az Azure Blob Storage-ban vagy az Azure Data Lake Storage Gen2-ben tárolhatja. Vagy ezek kombinációja. Ezek a tárolási lehetőségek lehetővé teszik a számítási célokra használt HDInsight-fürtök biztonságos törlését felhasználói adatok elvesztése nélkül.

Az Apache Hadoop támogatja az alapértelmezett fájlrendszer fogalmát. Az alapértelmezett fájlrendszer egy alapértelmezett sémát és szolgáltatót is jelent. A relatív elérési utak feloldásához is használható. A HDInsight-fürtlétrehozási folyamat során megadhat egy blobtárolót az Azure Storage-ban alapértelmezett fájlrendszerként. Vagy a HDInsight 3.6-os verziójával az Azure Blob Storage-t vagy az Azure Data Lake Storage Gen2-t választhatja alapértelmezett fájlrendszerként néhány kivétellel.

Ebből a cikkből megtudhatja, hogyan használható az Azure Storage a HDInsight-fürtökkel.

  • A Data Lake Storage Gen2 HDInsight-fürtökkel való működésének megismeréséhez tekintse meg az Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel című témakört.
  • A HDInsight-fürt létrehozásával kapcsolatos további információkért lásd : Apache Hadoop-fürtök létrehozása a HDInsightban.

Fontos

A BlobStorage típusú tárfiók csak a HDInsight-fürtök másodlagos tárolójaként használható.

Tárfiók altípusa Támogatott szolgáltatások Támogatott teljesítményszintek Nem támogatott teljesítményszintek Támogatott hozzáférési szintek
StorageV2 (általános célú v2) Blob Standard Prémium Gyakori elérésű, ritka elérésű, archív*
Tároló (általános célú v1) Blob Standard Prémium n/a
BlobStorage Blob Standard Prémium Gyakori elérésű, ritka elérésű, archív*

Nem javasoljuk, hogy az alapértelmezett blobtárolót használja az üzleti adatok tárolásához. Az alapértelmezett blobtárolót ajánlatos törölni minden egyes használat után. Az alapértelmezett tároló alkalmazás- és rendszernaplókat tartalmaz. A tároló törlése előtt gondoskodjon a naplók begyűjtéséről.

Egy blobtároló megosztása több fürt alapértelmezett fájlrendszereként nem támogatott.

Feljegyzés

Az archív hozzáférési szint egy offline szint, amely több órás lekérési késéssel rendelkezik, és nem ajánlott a HDInsighttal való használathoz. További információ: Archív hozzáférési szint.

Fájlok elérése a fürtön belülről

Feljegyzés

Az Azure Storage csapata megszüntette az összes aktív fejlesztést a WASB-ben, és azt javasolja minden ügyfélnek, hogy használja az ABFS-illesztőprogramot a Blob és az ADLS gen2 használatához. További információ: The Azure Blob Filesystem driver (ABFS): Dedikált Azure Storage-illesztőprogram a Hadoophoz

  • A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.

    wasb://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    wasbs://<containername>@<accountname>.blob.core.windows.net/<file.path>/
    
  • A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:

    wasb:///<file.path>/
    wasbs:///<file.path>/
    
  • A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.

    /<file.path>/
    

Adatelérési példák

Ilyenek például a fürt fő csomópontjához tartozó ssh-kapcsolat . A példák mindhárom URI-sémát használják. Cserélje le és STORAGEACCOUNT cserélje le CONTAINERNAME a megfelelő értékeket

Néhány hdfs-parancs

  1. Hozzon létre egy fájlt a helyi tárolóban.

    touch testFile.txt
    
  2. Címtárak létrehozása a fürttárolóban.

    hdfs dfs -mkdir wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -mkdir wasbs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Adatok másolása a helyi tárolóból a fürttárolóba.

    hdfs dfs -copyFromLocal testFile.txt  wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  wasbs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. Címtártartalom listázása a fürttárolóban.

    hdfs dfs -ls wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/sampledata1/
    hdfs dfs -ls wasbs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Feljegyzés

Amikor a HDInsight eszközön kívüli blobokkal dolgozik, a legtöbb segédprogram nem ismeri fel a WASB formátumot, és ehelyett alapvető elérési út formátumot vár, például a következőt: example/jars/hadoop-mapreduce-examples.jar.

Hive-tábla létrehozása

Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az egyik LOCATION bejegyzést használja.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'wasbs://CONTAINERNAME@STORAGEACCOUNT.blob.core.windows.net/example/data/';
LOCATION 'wasbs:///example/data/';
LOCATION '/example/data/';

Fájlok elérése külső fürtből

A Microsoft a következő eszközöket biztosítja az Azure Storage használatához:

Eszköz Linux OS X Windows
Azure Portalra
Azure CLI
Azure PowerShell
AzCopy

Az Ambari tárolási útvonalának azonosítása

  • A konfigurált alapértelmezett tároló teljes elérési útjának azonosításához lépjen a következőre:

    HDFS-konfigurációk>, és adja meg fs.defaultFS a szűrő beviteli mezőjét.

  • Annak ellenőrzéséhez, hogy a Wasb Store másodlagos tárolóként van-e konfigurálva, lépjen a következőre:

    HDFS-konfigurációk>, és adja meg blob.core.windows.net a szűrő beviteli mezőjét.

Az elérési út az Ambari REST API-val való beszerzéséhez tekintse meg az alapértelmezett tároló lekérését.

Blobtárolók

A blobok használatához először hozzon létre egy Azure Storage-fiókot. Ennek a lépésnek a részeként meg kell adnia egy Azure-régiót, ahol a tárfiók létrejön. A fürtnek és a tárfióknak ugyanabban a régióban kell lennie. A Hive metaadattár SQL Server-adatbázisának és az Apache Oozie-metaadattár SQL Server-adatbázisnak ugyanabban a régióban kell lennie.

Akárhol él, mindegyik létrehozott blob az Azure Storage-fiókban lévő tárolóhoz tartozik. Ez a tároló lehet a HDInsighton kívül létrehozott meglévő blob. Vagy lehet egy HDInsight-fürthöz létrehozott tároló.

Az alapértelmezett Blob-tároló a fürtre jellemző információkat, például a feladatelőzményeket és a naplókat tárolja. Ne osszon meg alapértelmezett Blob tárolókat több HDInsight-fürttel. Ez a művelet sérült lehet a feladatelőzményekben. Javasoljuk, hogy minden fürthöz használjon másik tárolót. Az alapértelmezett tárfiók helyett helyezzen el megosztott adatokat az összes releváns fürthöz megadott csatolt tárfiókra. A kapcsolt tárfiókok konfigurálásáról további információért lásd: HDInsight-fürtök létrehozása. De újból felhasználhatja az alapértelmezett tárolókat az eredeti HDInsight fürt törlése után. A HBase-fürtök esetében a HBase-táblaséma és -adatok megőrzéséhez hozzon létre egy új HBase-fürtöt a törölt HBase-fürt által használt alapértelmezett blobtárolóval

Feljegyzés

A biztonságos átvitelt igénylő funkció biztonságos kapcsolaton keresztül kényszeríti ki a fiókra irányuló összes kérést. Ezt a funkciót csak a HDInsight-fürt 3.6-os vagy újabb verziója támogatja. További információ: Apache Hadoop-fürt létrehozása biztonságos átviteli tárfiókokkal az Azure HDInsightban.

További tárfiókok használata

HDInsight-fürt létrehozásakor meg kell adnia azt az Azure Storage-fiókot, amelyet a fürthöz társítani kívánja. Emellett hozzáadhat további tárfiókokat ugyanabból az Azure-előfizetésből vagy különböző Azure-előfizetésekből a létrehozási folyamat során vagy a fürt létrehozása után. Útmutatás további tárfiókok hozzáadásához: HDInsight-fürtök létrehozása.

Figyelmeztetés

A HDInsight-fürtön kívül más helyen lévő további tárfiók használata nem támogatott.

Következő lépések

Ebből a cikkből megtanulta, hogyan használhat HDFS-kompatibilis Azure-tárolót a HDInsighttal. Ez a tároló lehetővé teszi, hogy adaptálható, hosszú távú archiválási adatgyűjtő megoldásokat hozzon létre, és a HDInsight használatával oldja fel a tárolt strukturált és strukturálatlan adatokon belüli információkat.

További információk: