HDInsight-fürtök létrehozása Azure Data Lake Storage Gen1 használatával a Azure Portal
Megtudhatja, hogyan hozhat létre a Azure Portal egy HDInsight-fürtöt, amely Azure Data Lake Storage Gen1-et használja alapértelmezett tárolóként vagy további tárolóként. Bár a HDInsight-fürtök esetében nem kötelező további tárterületet használni, ajánlott az üzleti adatokat a további tárfiókokban tárolni.
Előfeltételek
Mielőtt hozzákezdene, győződjön meg arról, hogy megfelel a következő követelményeknek:
- Egy Azure-előfizetés. Nyissa meg az Ingyenes Azure-próbaverzió beszerzése című témakört.
- Egy Azure Data Lake Storage Gen1-fiók. Kövesse a Azure Data Lake Storage Gen1 használatának első lépéseit a Azure Portal használatával. Létre kell hoznia egy gyökérmappát is a fiókban. Ebben a cikkben egy /clusters nevű gyökérmappát használunk.
- Microsoft Entra szolgáltatásnév. Ez az útmutató útmutatást nyújt a szolgáltatásnevek Microsoft Entra ID való létrehozásához. Szolgáltatásnév létrehozásához azonban Microsoft Entra rendszergazdának kell lennie. Ha Ön rendszergazda, kihagyhatja ezt az előfeltételt, és folytathatja a műveletet.
Megjegyzés
Szolgáltatásnevet csak akkor hozhat létre, ha Ön Microsoft Entra rendszergazda. A Microsoft Entra rendszergazdájának létre kell hoznia egy szolgáltatásnevet, mielőtt hdInsight-fürtöt hozhat létre Data Lake Storage Gen1. Emellett a szolgáltatásnevet egy tanúsítvánnyal kell létrehozni, a Szolgáltatásnév létrehozása tanúsítvánnyal című témakörben leírtak szerint.
HDInsight-fürt létrehozása
Ebben a szakaszban létrehoz egy HDInsight-fürtöt, amelynek alapértelmezett vagy további tárolója a Data Lake Storage Gen1. Ez a cikk csak a Data Lake Storage Gen1 konfigurálásának részével foglalkozik. Az általános fürtlétrehozási információkért és eljárásokért lásd: Hadoop-fürtök létrehozása a HDInsightban.
Fürt létrehozása Data Lake Storage Gen1 alapértelmezett tárolóként
HDInsight-fürt létrehozása Data Lake Storage Gen1 alapértelmezett tárfiókként:
Jelentkezzen be az Azure Portalra.
A HDInsight-fürtök létrehozásával kapcsolatos általános információkért kövesse a Fürtök létrehozása című témakört.
A Tárolás panel Elsődleges tárolótípus területén válassza Azure Data Lake Storage Gen1 elemet, majd adja meg a következő adatokat:
- Válassza a Data Lake Store-fiók: Válasszon ki egy meglévő Data Lake Storage Gen1 fiókot. Egy meglévő Data Lake Storage Gen1 fiókra van szükség. Lásd: Előfeltételek.
- Gyökérútvonal: Adjon meg egy elérési utat, ahol a fürtspecifikus fájlokat tárolni szeretné. A képernyőképen a /clusters/myhdiadlcluster/, amelyben a /clusters mappának léteznie kell, és a Portál létrehozza a myhdicluster mappát. A myhdicluster a fürt neve.
- Data Lake Store-hozzáférés: Konfigurálja a hozzáférést a Data Lake Storage Gen1-fiók és a HDInsight-fürt között. Útmutatásért lásd: Data Lake Storage Gen1 hozzáférés konfigurálása.
- További tárfiókok: Azure-tárfiókok hozzáadása további tárfiókokként a fürthöz. További Data Lake Storage Gen1 fiókok hozzáadásához a fürtnek több Data Lake Storage Gen1 fiók adataira vonatkozó engedélyeket kell megadnia, miközben egy Data Lake Storage Gen1 fiókot konfigurál elsődleges tárolótípusként. Lásd: Data Lake Storage Gen1 hozzáférés konfigurálása.
A Data Lake Store-hozzáférésen kattintson a Kiválasztás gombra, majd folytassa a fürtlétrehozás lépéseit a Hadoop-fürtök létrehozása a HDInsightban című témakörben leírtak szerint.
Fürt létrehozása további tárolóként Data Lake Storage Gen1
Az alábbi utasítások egy HDInsight-fürtöt hoznak létre alapértelmezett tárolóként egy Azure Blob Storage-fiókkal, valamint egy tárfiókot Data Lake Storage Gen1 további tárolóként.
HDInsight-fürt létrehozása Data Lake Storage Gen1 további tárfiókként:
Jelentkezzen be az Azure Portalra.
A HDInsight-fürtök létrehozásával kapcsolatos általános információkért kövesse a Fürtök létrehozása című témakört.
A Tárolás panel Elsődleges tároló típusa területén válassza az Azure Storage lehetőséget, majd adja meg a következő adatokat:
Kiválasztási módszer – Az Azure-előfizetés részét képező tárfiók megadásához válassza a Saját előfizetések lehetőséget, majd válassza ki a tárfiókot. Az Azure-előfizetésen kívüli tárfiók megadásához válassza a Hozzáférési kulcs lehetőséget, majd adja meg a külső tárfiók adatait.
Alapértelmezett tároló – Használja az alapértelmezett értéket, vagy adja meg a saját nevét.
További tárfiókok – További Tárfiókként további Azure Storage-fiókokat adhat hozzá.
Data Lake Store-hozzáférés – Konfigurálja a hozzáférést a Data Lake Storage Gen1-fiók és a HDInsight-fürt között. Útmutatásért lásd: Data Lake Storage Gen1 hozzáférés konfigurálása.
Data Lake Storage Gen1 hozzáférés konfigurálása
Ebben a szakaszban Data Lake Storage Gen1 HDInsight-fürtökről való hozzáférést konfigurálja egy Microsoft Entra szolgáltatásnév használatával.
Szolgáltatásnév megadása
A Azure Portal használhat egy meglévő szolgáltatásnevet, vagy létrehozhat egy újat.
Szolgáltatásnév létrehozása a Azure Portal:
- Lásd: Szolgáltatásnév és tanúsítványok létrehozása Microsoft Entra ID használatával.
Meglévő szolgáltatásnév használata a Azure Portal:
A szolgáltatásnévnek tulajdonosi engedélyekkel kell rendelkeznie a Storage-fiókhoz. Lásd: A szolgáltatásnév engedélyeinek beállítása a tárfiók tulajdonosának.
Válassza a Data Lake Store-hozzáférés lehetőséget.
A Data Lake Storage Gen1 hozzáférési panelen válassza a Meglévő használata lehetőséget.
Válassza a Szolgáltatásnév lehetőséget, majd válasszon ki egy szolgáltatásnevet.
Töltse fel a kiválasztott szolgáltatásnévhez társított tanúsítványt (.pfx fájlt), majd adja meg a tanúsítvány jelszavát.
A mappahozzáférés konfigurálásához válassza az Access lehetőséget. Lásd: Fájlengedélyek konfigurálása.
A szolgáltatásnév tulajdonosi jogosultságainak beállítása a tárfiókban
- A tárfiók Access Control (IAM) paneljén kattintson a Szerepkör-hozzárendelés hozzáadása elemre.
- A Szerepkör-hozzárendelés hozzáadása panelen válassza a Szerepkör tulajdonosként lehetőséget, majd válassza ki az egyszerű szolgáltatásnevét, és kattintson a Mentés gombra.
Fájlengedélyek konfigurálása
A konfiguráció attól függően eltérő, hogy a fiók az alapértelmezett tárként vagy egy további tárfiókként van-e használva:
Alapértelmezett tárolóként használva
- engedély a Data Lake Storage Gen1 fiók gyökérszintjén
- jogosultságot a HDInsight-fürttároló gyökérszintjén. Például az oktatóanyag korábbi részében használt /clusters mappa.
További tárolóként való használat
- Engedély azokhoz a mappákhoz, ahol fájlelérésre van szükség.
Engedély hozzárendelése a tárfiókhoz Data Lake Storage Gen1 gyökérszinten:
A Data Lake Storage Gen1 hozzáférési panelen válassza az Access lehetőséget. Megnyílik a Fájlengedélyek kiválasztása panel. Felsorolja az előfizetésében lévő összes tárfiókot.
Vigye az egérmutatót (ne kattintson rá) a fiók nevére Data Lake Storage Gen1, hogy láthatóvá tegye a jelölőnégyzetet, majd jelölje be a jelölőnégyzetet.
Alapértelmezés szerint az OLVASÁS, AZ ÍRÁS ÉS a VÉGREHAJTÁS beállítás van kiválasztva.
Kattintson a lap alján található Kiválasztás gombra.
Az engedély hozzárendeléséhez válassza a Futtatás lehetőséget.
Válassza a Kész lehetőséget.
Engedély hozzárendelése a HDInsight-fürt gyökérszintjén:
- A Data Lake Storage Gen1 hozzáférési panelen válassza az Access lehetőséget. Megnyílik a Fájlengedélyek kiválasztása panel. Felsorolja az előfizetésben Data Lake Storage Gen1 rendelkező összes tárfiókot.
- A Fájlengedélyek kiválasztása panelen válassza ki a Data Lake Storage Gen1 nevű tárfiókot a tartalmának megjelenítéséhez.
- Jelölje be a HDInsight-fürt tárológyökerét a mappa bal oldalán található jelölőnégyzet bejelölésével. A korábbi képernyőkép szerint a fürttároló gyökérmappája a /clusters mappa, amelyet a Data Lake Storage Gen1 alapértelmezett tárolóként való kiválasztásakor adott meg.
- Adja meg a mappára vonatkozó engedélyeket. Alapértelmezés szerint az olvasás, az írás és a végrehajtás mind ki van jelölve.
- A lap alján kattintson a Kiválasztás gombra.
- Válassza a Futtatás lehetőséget.
- Válassza a Kész lehetőséget.
Ha további tárolóként Data Lake Storage Gen1 használ, csak a HDInsight-fürtből elérni kívánt mappákhoz kell engedélyt rendelnie. Az alábbi képernyőképen például csak a mynewfolder mappához biztosít hozzáférést egy tárfiókban Data Lake Storage Gen1.
Fürtbeállítás ellenőrzése
A fürt beállítása után a fürt paneljén ellenőrizze az eredményeket az alábbi lépések egyikével vagy mindkettővel:
Ha ellenőrizni szeretné, hogy a fürt társított tárolója a megadott Data Lake Storage Gen1 rendelkező fiók-e, válassza a Tárfiókok lehetőséget a bal oldali panelen.
Ha ellenőrizni szeretné, hogy a szolgáltatásnév megfelelően van-e társítva a HDInsight-fürthöz, válassza Data Lake Storage Gen1 hozzáférést a bal oldali panelen.
Példák
Miután beállította a fürtöt a Data Lake Storage Gen1 tárolóként, tekintse meg az alábbi példákat arra, hogyan elemezheti a HDInsight-fürtöt a Data Lake Storage Gen1 tárolt adatok elemzéséhez.
Hive-lekérdezés futtatása Data Lake Storage Gen1 adataival (elsődleges tárolóként)
Hive-lekérdezés futtatásához használja az Ambari portál Hive-nézetek felületét. Az Ambari Hive-nézetek használatáról a Hive-nézet használata a Hadooptal a HDInsightban című témakörben olvashat.
Ha egy Data Lake Storage Gen1 adataival dolgozik, néhány sztringet módosítani kell.
Ha például a Data Lake Storage Gen1 elsődleges tárolóként létrehozott fürtöt használja, az adatok elérési útja a következő: adl://< data_lake_storage_gen1_account_name>/azuredatalakestore.net/path/to/file. A Data Lake Storage Gen1 tárolt mintaadatokból táblát létrehozó Hive-lekérdezés a következő utasításhoz hasonlóan néz ki:
CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'
Leírások:
-
adl://hdiadlsg1storage.azuredatalakestore.net/
a fiók gyökere a Data Lake Storage Gen1. -
/clusters/myhdiadlcluster
a fürt létrehozásakor megadott fürtadatok gyökere. -
/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/
a lekérdezésben használt mintafájl helye.
Hive-lekérdezés futtatása Data Lake Storage Gen1 adataival (további tárolóként)
Ha a létrehozott fürt a Blob Storage-t használja alapértelmezett tárolóként, a mintaadatok nem találhatók meg a tárfiókban, Data Lake Storage Gen1, amelyet további tárolóként használnak. Ilyen esetben először vigye át az adatokat a Blob Storage-ból a tárfiókba a Data Lake Storage Gen1, majd futtassa a lekérdezéseket az előző példában látható módon.
Az adatok Blob Storage-ból tárfiókba való másolásáról Data Lake Storage Gen1 az alábbi cikkekben olvashat:
- Adatok másolása az Azure Blob Storage és a Data Lake Storage Gen1 között a Distcp használatával
- Az AdlCopy használatával adatokat másolhat az Azure Blob Storage-ból a Data Lake Storage Gen1
Data Lake Storage Gen1 használata Spark-fürttel
Spark-fürt használatával Spark-feladatokat futtathat egy Data Lake Storage Gen1 tárolt adatokon. További információ: Adatok elemzése a HDInsight Spark-fürtön Data Lake Storage Gen1.