Megosztás a következőn keresztül:


Az Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel

Az Azure Data Lake Storage Gen2 egy felhőalapú tárolási szolgáltatás, amely az Azure Blob Storage-ra épülő big data-elemzésekre épül. Az eredményül kapott szolgáltatás az Azure Data Lake Storage funkcióit kínálja, többek között a fájlrendszer szemantikáját, a címtárszintű és a fájlszintű biztonságot, valamint az alkalmazkodóképességet. Az Azure Blob Storage alacsony költségű, rétegzett tárolási, magas rendelkezésre állási és vészhelyreállítási képességei mellett.

A fürtlétrehozás lehetőségeinek a Data Lake Storage Gen2 használatával történő teljes összehasonlításához tekintse meg az Azure HDInsight-fürtökhöz használható tárolási lehetőségek összehasonlítása című témakört.

Figyelmeztetés

A HDInsight-fürtök számlázása percenként történik, akár használja őket, akár nem. A használat befejezése után mindenképpen törölje a fürtöt. Megtudhatja , hogyan törölhet HDInsight-fürtöt.

A Data Lake Storage Gen2 elérhetősége

A Data Lake Storage Gen2 tárolási lehetőségként szinte minden Azure HDInsight-fürttípushoz elérhető alapértelmezett és további tárfiókként is. A HBase azonban csak egy fiókkal rendelkezhet a Data Lake Storage Gen2-vel.

Feljegyzés

Miután elsődleges tárolótípusként a Data Lake Storage Gen2-t választja, nem választhat további tárolóként egy 1. generációs Data Lake Storage-t.

HDInsight-fürtök létrehozása a Data Lake Storage Gen2 használatával

Az alábbi hivatkozásokon részletes útmutatást talál a HDInsight-fürtök Data Lake Storage Gen2-hez való hozzáféréssel történő létrehozásáról.

Hozzáférés-vezérlés a Data Lake Storage Gen2-hez a HDInsightban

Milyen engedélyeket támogat a Data Lake Storage Gen2?

A Data Lake Storage Gen2 olyan hozzáférés-vezérlési modellt használ, amely támogatja az Azure szerepköralapú hozzáférés-vezérlést (Azure RBAC) és a POSIX-szerű hozzáférés-vezérlési listákat (ACL-eket).

Az Azure RBAC szerepkör-hozzárendelésekkel hatékonyan alkalmazza az engedélyek készleteit az Azure-erőforrások felhasználóira, csoportjaira és szolgáltatásneveire. Ezek az Azure-erőforrások általában felső szintű erőforrásokra (például Azure Blob Storage-fiókokra) vannak korlátozva. Az Azure Blob Storage és a Data Lake Storage Gen2 esetében ez a mechanizmus ki lett terjesztve a fájlrendszer-erőforrásra.

További információ az Azure RBAC fájlengedélyeiről: Azure szerepköralapú hozzáférés-vezérlés (Azure RBAC).

Az ACL-ekkel kapcsolatos fájlengedélyekről további információt a fájlok és könyvtárak hozzáférés-vezérlési listáiban talál.

Hogyan szabályozni az adataimhoz való hozzáférést a Data Lake Storage Gen2-ben?

A HDInsight-fürtnek a Data Lake Storage Gen2-ben található fájlokhoz való hozzáférését felügyelt identitások vezérlik. A felügyelt identitás a Microsoft Entra-ban regisztrált identitás, amelynek hitelesítő adatait az Azure kezeli. Felügyelt identitások esetén nem kell szolgáltatásneveket regisztrálnia a Microsoft Entra ID-ban. Vagy megőrizheti a hitelesítő adatokat, például a tanúsítványokat.

Az Azure-szolgáltatások kétféle felügyelt identitást használnak: a rendszer által hozzárendelt és a felhasználó által hozzárendelt identitásokat. A HDInsight felhasználó által hozzárendelt felügyelt identitásokat használ a Data Lake Storage Gen2 eléréséhez. Az A user-assigned managed identity önálló Azure-erőforrásként jön létre. A létrehozási folyamat során az Azure létrehoz egy identitást a Microsoft Entra-bérlőben, amelyet a használatban lévő előfizetés megbízhatónak tart. Az identitás a létrehozását követően hozzárendelhető egy vagy több Azure-beli szolgáltatáspéldányhoz.

A felhasználó által hozzárendelt identitások életciklusa külön van kezelve azon Azure-beli szolgáltatáspéldányokétól, amelyekhez hozzá lettek rendelve. A felügyelt identitásokról további információt az Azure-erőforrások felügyelt identitásai című témakörben talál.

Hogyan engedélyeket állít be a Microsoft Entra-felhasználók számára a 2. generációs Data Lake Storage adatainak lekérdezéséhez a Hive vagy más szolgáltatások használatával?

Ha meg szeretné adni a felhasználók számára az adatok lekérdezésére vonatkozó engedélyeket, használja a Microsoft Entra biztonsági csoportokat az ACL-ek hozzárendelt tagjaként. Ne rendeljen közvetlenül fájlhozzáférési engedélyeket az egyes felhasználókhoz vagy szolgáltatásnevekhez. A Microsoft Entra biztonsági csoportjaival szabályozhatja az engedélyek áramlását, anélkül adhat hozzá és távolíthat el felhasználókat vagy szolgáltatásneveket, hogy az ACL-eket a teljes címtárstruktúra újraalkalmazása nélkül alkalmazné. Csak a megfelelő Microsoft Entra biztonsági csoporthoz kell hozzáadnia vagy eltávolítania a felhasználókat. Az ACL-ek nem öröklődnek, ezért az ACL újbóli alkalmazásához minden fájlon és alkönyvtáron frissíteni kell az ACL-t.

Fájlok elérése a fürtből

A Data Lake Storage Gen2-ben lévő fájlokat többféleképpen is elérheti egy HDInsight-fürtből.

  • A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.

    abfs://<containername>@<accountname>.dfs.core.windows.net/<file.path>/
    
  • A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:

    abfs:///<file.path>/
    
  • A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.

    /<file.path>/
    

Adatelérési példák

Ilyenek például a fürt fő csomópontjához tartozó ssh-kapcsolat . A példák mindhárom URI-sémát használják. Cserélje le és STORAGEACCOUNT cserélje le CONTAINERNAME a megfelelő értékeket

Néhány hdfs-parancs

  1. Hozzon létre egy fájlt a helyi tárolóban.

    touch testFile.txt
    
  2. Címtárak létrehozása a fürttárolóban.

    hdfs dfs -mkdir abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -mkdir abfs:///sampledata2/
    hdfs dfs -mkdir /sampledata3/
    
  3. Adatok másolása a helyi tárolóból a fürttárolóba.

    hdfs dfs -copyFromLocal testFile.txt  abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -copyFromLocal testFile.txt  abfs:///sampledata2/
    hdfs dfs -copyFromLocal testFile.txt  /sampledata3/
    
  4. Címtártartalom listázása a fürttárolóban.

    hdfs dfs -ls abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/
    hdfs dfs -ls abfs:///sampledata2/
    hdfs dfs -ls /sampledata3/
    

Hive-tábla létrehozása

Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az egyik LOCATION bejegyzést használja.

DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
    t1 string,
    t2 string,
    t3 string,
    t4 string,
    t5 string,
    t6 string,
    t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/example/data/';
LOCATION 'abfs:///example/data/';
LOCATION '/example/data/';

Következő lépések