Use Azure Data Lake Storage Gen2 with Azure HDInsight clusters

Az Azure Data Lake Storage Gen2 egy felhőalapú tárolási szolgáltatás, amely az Azure Blob Storage-ra épülő big data-elemzésekre épül. A Data Lake Storage Gen2 egyesíti az Azure Blob Storage és az Azure Data Lake Storage Gen1 képességeit. Az eredményül kapott szolgáltatás az Azure Data Lake Storage Gen1 funkcióit kínálja, többek között a fájlrendszer szemantikáját, a címtárszintű és fájlszintű biztonságot, valamint az alkalmazkodóképességet. Az Azure Blob Storage alacsony költségű, rétegzett tárolási, magas rendelkezésre állási és vészhelyreállítási képességei mellett.

A fürtlétrehozás lehetőségeinek a Data Lake Storage Gen2 használatával történő teljes összehasonlításához tekintse meg az Azure HDInsight-fürtökhöz használható tárolási lehetőségek összehasonlítása című témakört.

Figyelmeztetés:

A HDInsight-fürtök számlázása percenként történik, akár használja őket, akár nem. A használat befejezése után mindenképpen törölje a fürtöt. Megtudhatja , hogyan törölhet HDInsight-fürtöt.

A Data Lake Storage Gen2 elérhetősége

A Data Lake Storage Gen2 tárolási lehetőségként szinte minden Azure HDInsight-fürttípushoz elérhető alapértelmezett és további tárfiókként is. A HBase azonban csak egy fiókkal rendelkezhet a Data Lake Storage Gen2-vel.

Megjegyzés:

Miután elsődleges tárolótípusként a Data Lake Storage Gen2-t választja, nem választhat további tárolóként egy 1. generációs Data Lake Storage-t.

HDInsight-fürtök létrehozása a Data Lake Storage Gen2 használatával

Az alábbi hivatkozásokon részletes útmutatást talál a HDInsight-fürtök Data Lake Storage Gen2-hez való hozzáféréssel történő létrehozásáról.

Hozzáférés-vezérlés a Data Lake Storage Gen2-hez a HDInsightban

Milyen engedélyeket támogat a Data Lake Storage Gen2?

A Data Lake Storage Gen2 olyan hozzáférés-vezérlési modellt használ, amely támogatja az Azure szerepköralapú hozzáférés-vezérlést (Azure RBAC) és a POSIX-szerű hozzáférés-vezérlési listákat (ACL-eket). A Data Lake Storage Gen1 csak az adatokhoz való hozzáférés szabályozásához támogatja a hozzáférés-vezérlési listákat.

Az Azure RBAC szerepkör-hozzárendelésekkel hatékonyan alkalmazza az engedélyek készleteit az Azure-erőforrások felhasználóira, csoportjaira és szolgáltatásneveire. Ezek az Azure-erőforrások általában felső szintű erőforrásokra (például Azure Blob Storage-fiókokra) vannak korlátozva. Az Azure Blob Storage és a Data Lake Storage Gen2 esetében ez a mechanizmus ki lett terjesztve a fájlrendszer-erőforrásra.

További információ az Azure RBAC fájlengedélyeiről: Azure szerepköralapú hozzáférés-vezérlés (Azure RBAC).

Az ACL-ekkel kapcsolatos fájlengedélyekről további információt a fájlok és könyvtárak hozzáférés-vezérlési listáiban talál.

Hogyan szabályozni az adataimhoz való hozzáférést a Data Lake Storage Gen2-ben?

A HDInsight-fürtnek a Data Lake Storage Gen2-ben található fájlokhoz való hozzáférését felügyelt identitások vezérlik. A felügyelt identitás a Microsoft Entra-ban regisztrált identitás, amelynek hitelesítő adatait az Azure kezeli. Felügyelt identitások esetén nem kell szolgáltatásneveket regisztrálnia a Microsoft Entra ID-ban. Vagy megőrizheti a hitelesítő adatokat, például a tanúsítványokat.

Az Azure-szolgáltatások kétféle felügyelt identitást használnak: a rendszer által hozzárendelt és a felhasználó által hozzárendelt identitásokat. A HDInsight felhasználó által hozzárendelt felügyelt identitásokat használ a Data Lake Storage Gen2 eléréséhez. Az A user-assigned managed identity önálló Azure-erőforrásként jön létre. A létrehozási folyamat során az Azure létrehoz egy identitást a Microsoft Entra-bérlőben, amelyet a használatban lévő előfizetés megbízhatónak tart. Az identitás a létrehozását követően hozzárendelhető egy vagy több Azure-beli szolgáltatáspéldányhoz.

A felhasználó által hozzárendelt identitások életciklusa külön van kezelve azon Azure-beli szolgáltatáspéldányokétól, amelyekhez hozzá lettek rendelve. A felügyelt identitásokról további információt az Azure-erőforrások felügyelt identitásai című témakörben talál.

Hogyan engedélyeket állít be a Microsoft Entra-felhasználók számára a 2. generációs Data Lake Storage adatainak lekérdezéséhez a Hive vagy más szolgáltatások használatával?

Ha meg szeretné adni a felhasználók számára az adatok lekérdezésére vonatkozó engedélyeket, használja a Microsoft Entra biztonsági csoportokat az ACL-ek hozzárendelt tagjaként. Ne rendeljen közvetlenül fájlhozzáférési engedélyeket az egyes felhasználókhoz vagy szolgáltatásnevekhez. A Microsoft Entra biztonsági csoportjaival szabályozhatja az engedélyek áramlását, anélkül adhat hozzá és távolíthat el felhasználókat vagy szolgáltatásneveket, hogy az ACL-eket a teljes címtárstruktúra újraalkalmazása nélkül alkalmazné. Csak a megfelelő Microsoft Entra biztonsági csoporthoz kell hozzáadnia vagy eltávolítania a felhasználókat. Az ACL-ek nem öröklődnek, ezért az ACL újbóli alkalmazásához minden fájlon és alkönyvtáron frissíteni kell az ACL-t.

Fájlok elérése a fürtből

A Data Lake Storage Gen2-ben lévő fájlokat többféleképpen is elérheti egy HDInsight-fürtből.

  • A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.

    abfs://<containername>@<accountname>.dfs.core.windows.net/<file.path>/
    
  • A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:

    abfs:///<file.path>/
    
  • A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.

    /<file.path>/
    

Adatelérési példák

Ilyenek például a fürt fő csomópontjához tartozó ssh-kapcsolat . A példák mindhárom URI-sémát használják. Cserélje le és STORAGEACCOUNT cserélje le CONTAINERNAME a megfelelő értékeket

Néhány hdfs-parancs

  1. Hozzon létre egy fájlt a helyi tárolóban.

    touch testFile.txt
    
  2. Címtárak létrehozása a fürttárolóban.

    hdfs dfs -mkdir abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -mkdir abfs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Adatok másolása a helyi tárolóból a fürttárolóba.

    hdfs dfs -copyFromLocal testFile.txt  abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  abfs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. Címtártartalom listázása a fürttárolóban.

    hdfs dfs -ls abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -ls abfs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Hive-tábla létrehozása

Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az egyik LOCATION bejegyzést használja.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/example/data/';
LOCATION 'abfs:///example/data/';
LOCATION '/example/data/';

Következő lépések