Az Azure Data Lake Storage Gen2 használata Azure HDInsight-fürtökkel
Az Azure Data Lake Storage Gen2 egy felhőalapú tárolási szolgáltatás, amely az Azure Blob Storage-ra épülő big data-elemzésekre épül. Az eredményül kapott szolgáltatás az Azure Data Lake Storage funkcióit kínálja, többek között a fájlrendszer szemantikáját, a címtárszintű és a fájlszintű biztonságot, valamint az alkalmazkodóképességet. Az Azure Blob Storage alacsony költségű, rétegzett tárolási, magas rendelkezésre állási és vészhelyreállítási képességei mellett.
A fürtlétrehozás lehetőségeinek a Data Lake Storage Gen2 használatával történő teljes összehasonlításához tekintse meg az Azure HDInsight-fürtökhöz használható tárolási lehetőségek összehasonlítása című témakört.
Figyelmeztetés
A HDInsight-fürtök számlázása percenként történik, akár használja őket, akár nem. A használat befejezése után mindenképpen törölje a fürtöt. Megtudhatja , hogyan törölhet HDInsight-fürtöt.
A Data Lake Storage Gen2 elérhetősége
A Data Lake Storage Gen2 tárolási lehetőségként szinte minden Azure HDInsight-fürttípushoz elérhető alapértelmezett és további tárfiókként is. A HBase azonban csak egy fiókkal rendelkezhet a Data Lake Storage Gen2-vel.
Feljegyzés
Miután elsődleges tárolótípusként a Data Lake Storage Gen2-t választja, nem választhat további tárolóként egy 1. generációs Data Lake Storage-t.
HDInsight-fürtök létrehozása a Data Lake Storage Gen2 használatával
Az alábbi hivatkozásokon részletes útmutatást talál a HDInsight-fürtök Data Lake Storage Gen2-hez való hozzáféréssel történő létrehozásáról.
- A Portal használata
- Az Azure parancssori felület használata
- A PowerShell jelenleg nem támogatott HDInsight-fürt létrehozásához az Azure Data Lake Storage Gen2-vel.
Hozzáférés-vezérlés a Data Lake Storage Gen2-hez a HDInsightban
Milyen engedélyeket támogat a Data Lake Storage Gen2?
A Data Lake Storage Gen2 olyan hozzáférés-vezérlési modellt használ, amely támogatja az Azure szerepköralapú hozzáférés-vezérlést (Azure RBAC) és a POSIX-szerű hozzáférés-vezérlési listákat (ACL-eket).
Az Azure RBAC szerepkör-hozzárendelésekkel hatékonyan alkalmazza az engedélyek készleteit az Azure-erőforrások felhasználóira, csoportjaira és szolgáltatásneveire. Ezek az Azure-erőforrások általában felső szintű erőforrásokra (például Azure Blob Storage-fiókokra) vannak korlátozva. Az Azure Blob Storage és a Data Lake Storage Gen2 esetében ez a mechanizmus ki lett terjesztve a fájlrendszer-erőforrásra.
További információ az Azure RBAC fájlengedélyeiről: Azure szerepköralapú hozzáférés-vezérlés (Azure RBAC).
Az ACL-ekkel kapcsolatos fájlengedélyekről további információt a fájlok és könyvtárak hozzáférés-vezérlési listáiban talál.
Hogyan szabályozni az adataimhoz való hozzáférést a Data Lake Storage Gen2-ben?
A HDInsight-fürtnek a Data Lake Storage Gen2-ben található fájlokhoz való hozzáférését felügyelt identitások vezérlik. A felügyelt identitás a Microsoft Entra-ban regisztrált identitás, amelynek hitelesítő adatait az Azure kezeli. Felügyelt identitások esetén nem kell szolgáltatásneveket regisztrálnia a Microsoft Entra ID-ban. Vagy megőrizheti a hitelesítő adatokat, például a tanúsítványokat.
Az Azure-szolgáltatások kétféle felügyelt identitást használnak: a rendszer által hozzárendelt és a felhasználó által hozzárendelt identitásokat. A HDInsight felhasználó által hozzárendelt felügyelt identitásokat használ a Data Lake Storage Gen2 eléréséhez. Az A user-assigned managed identity
önálló Azure-erőforrásként jön létre. A létrehozási folyamat során az Azure létrehoz egy identitást a Microsoft Entra-bérlőben, amelyet a használatban lévő előfizetés megbízhatónak tart. Az identitás a létrehozását követően hozzárendelhető egy vagy több Azure-beli szolgáltatáspéldányhoz.
A felhasználó által hozzárendelt identitások életciklusa külön van kezelve azon Azure-beli szolgáltatáspéldányokétól, amelyekhez hozzá lettek rendelve. A felügyelt identitásokról további információt az Azure-erőforrások felügyelt identitásai című témakörben talál.
Hogyan engedélyeket állít be a Microsoft Entra-felhasználók számára a 2. generációs Data Lake Storage adatainak lekérdezéséhez a Hive vagy más szolgáltatások használatával?
Ha meg szeretné adni a felhasználók számára az adatok lekérdezésére vonatkozó engedélyeket, használja a Microsoft Entra biztonsági csoportokat az ACL-ek hozzárendelt tagjaként. Ne rendeljen közvetlenül fájlhozzáférési engedélyeket az egyes felhasználókhoz vagy szolgáltatásnevekhez. A Microsoft Entra biztonsági csoportjaival szabályozhatja az engedélyek áramlását, anélkül adhat hozzá és távolíthat el felhasználókat vagy szolgáltatásneveket, hogy az ACL-eket a teljes címtárstruktúra újraalkalmazása nélkül alkalmazné. Csak a megfelelő Microsoft Entra biztonsági csoporthoz kell hozzáadnia vagy eltávolítania a felhasználókat. Az ACL-ek nem öröklődnek, ezért az ACL újbóli alkalmazásához minden fájlon és alkönyvtáron frissíteni kell az ACL-t.
Fájlok elérése a fürtből
A Data Lake Storage Gen2-ben lévő fájlokat többféleképpen is elérheti egy HDInsight-fürtből.
A teljes név használatával. Ezzel a módszerrel az elérni kívánt fájl teljes elérési útját megadja.
abfs://<containername>@<accountname>.dfs.core.windows.net/<file.path>/
A rövidített elérésiút-formátum használatával. Ezzel a módszerrel a fürtgyökér elérési útját a következőre cseréli:
abfs:///<file.path>/
A relatív elérési út használatával. Ezzel a módszerrel csak az elérni kívánt fájl relatív elérési útját adja meg.
/<file.path>/
Adatelérési példák
Ilyenek például a fürt fő csomópontjához tartozó ssh-kapcsolat . A példák mindhárom URI-sémát használják. Cserélje le és STORAGEACCOUNT
cserélje le CONTAINERNAME
a megfelelő értékeket
Néhány hdfs-parancs
Hozzon létre egy fájlt a helyi tárolóban.
touch testFile.txt
Címtárak létrehozása a fürttárolóban.
hdfs dfs -mkdir abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/ hdfs dfs -mkdir abfs:///sampledata2/ hdfs dfs -mkdir /sampledata3/
Adatok másolása a helyi tárolóból a fürttárolóba.
hdfs dfs -copyFromLocal testFile.txt abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/ hdfs dfs -copyFromLocal testFile.txt abfs:///sampledata2/ hdfs dfs -copyFromLocal testFile.txt /sampledata3/
Címtártartalom listázása a fürttárolóban.
hdfs dfs -ls abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/sampledata1/ hdfs dfs -ls abfs:///sampledata2/ hdfs dfs -ls /sampledata3/
Hive-tábla létrehozása
Három fájlhely látható szemléltetés céljából. A tényleges végrehajtáshoz csak az egyik LOCATION
bejegyzést használja.
DROP TABLE myTable;
CREATE EXTERNAL TABLE myTable (
t1 string,
t2 string,
t3 string,
t4 string,
t5 string,
t6 string,
t7 string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ' '
STORED AS TEXTFILE
LOCATION 'abfs://CONTAINERNAME@STORAGEACCOUNT.dfs.core.windows.net/example/data/';
LOCATION 'abfs:///example/data/';
LOCATION '/example/data/';