Adatok átalakítása az Azure Virtual Networkben Hive-tevékenység használatával az Azure Data Factoryben az Azure Portal használatával
A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics
Tipp.
Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!
Ebben az oktatóanyagban az Azure Portal segítségével hoz létre egy Data Factory-folyamatot, amely egy Azure virtuális hálózaton (VNet) lévő HDInsight-fürtön futó Hive-tevékenységgel alakítja át az adatokat. Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:
- Adat-előállító létrehozása
- Saját üzemeltetésű Integration Runtime létrehozása
- Azure Storage-beli és Azure HDInsight társított szolgáltatások létrehozása
- Folyamat létrehozása Hive-tevékenységgel
- Folyamat futtatásának aktiválása
- A folyamat futásának monitorozása
- Kimenet ellenőrzése
Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.
Előfeltételek
Megjegyzés:
We recommend that you use the Azure Az PowerShell module to interact with Azure. See Install Azure PowerShell to get started. To learn how to migrate to the Az PowerShell module, see Migrate Azure PowerShell from AzureRM to Az.
Egy Azure Storage-fiók. Létrehoz egy Hive-szkriptet, és feltölti az Azure Storage-ba. A Hive-szkript kimenetét ebben a Storage-fiókban tárolja a rendszer. A példában a HDInsight-fürt ezt az Azure Storage-fiókot használja elsődleges tárolóként.
Azure Virtual Network. Ha nem rendelkezik Azure virtuális hálózattal, hozzon létre egyet ezeket az utasításokat követve. Ebben a példában a HDInsight egy Azure virtuális hálózaton található. Itt látható az Azure virtuális hálózat egy példa konfigurációja.
HDInsight-fürt. Hozzon létre egy HDInsight-fürtöt, és csatolja az előző lépésben létrehozott virtuális hálózathoz az Azure HDInsight Azure virtuális hálózat segítségével történő bővítésével kapcsolatos cikk utasításait követve. Itt látható a virtuális hálózaton található HDInsight egy példa konfigurációja.
Azure PowerShell. Kövesse az Azure PowerShell telepítését és konfigurálását ismertető cikkben szereplő utasításokat.
Egy virtuális gép. Hozzon létre egy Azure-beli virtuális gépet, és csatlakoztassa ahhoz a virtuális hálózathoz, amelyen a HDInsight-fürt található. Részletekért tekintse meg a virtuális gépek létrehozását ismertető cikket.
Hive-szkript feltöltése Blob Storage-fiókba
Hozzon létre egy hivescript.hql nevű Hive SQL-fájlt a következő tartalommal:
DROP TABLE IF EXISTS HiveSampleOut; CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string) ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' STORED AS TEXTFILE LOCATION '${hiveconf:Output}'; INSERT OVERWRITE TABLE HiveSampleOut Select clientid, market, devicemodel, state FROM hivesampletable
Az Azure Blob Storage-ban hozzon létre egy adftutorial nevű tárolót, ha még nem létezik.
Hozzon létre egy hivescripts nevű mappát.
Töltse fel a hivescript.hql fájlt a hivescripts almappába.
Adat-előállító létrehozása
Ha még nem hozta létre a data factoryt, kövesse a gyorsútmutató lépéseit : Adat-előállító létrehozása az Azure Portal és az Azure Data Factory Studio használatával. A létrehozás után keresse meg a data factoryt az Azure Portalon.
Válassza a Megnyitás az Azure Data Factory Studio megnyitása csempén a adatintegráció alkalmazás külön lapon való elindításához.
Saját üzemeltetésű Integration Runtime létrehozása
Mivel a Hadoop-fürt egy virtuális hálózatban található, telepítenie kell egy helyi Integration Runtime-ot (IR) ugyanabban a virtuális hálózatban. Ebben a szakaszban egy új virtuális hálózatot fog létrehozni, amelyet aztán csatlakoztat ugyanahhoz a virtuális hálózathoz, és telepít rajta egy helyi IR-t. A helyi IR a Data Factory szolgáltatás számára lehetővé teszi a feldolgozási kérelmek kiosztását az HDInsighthoz hasonló számítási szolgáltatásokhoz a virtuális hálózaton belül. Az adatok mozgatására is lehetőséget biztosít a virtuális hálózatban található adattárak és az Azure között. Akkor kell helyi IR-t használni, ha az adattár vagy a számítási feladat szintén helyszíni környezetben található.
Az Azure Data Factory felhasználói felületén kattintson az ablak alján látható Connections (Kapcsolatok) elemre, majd váltson át az Integration Runtimes lapra, és kattintson az eszköztáron a + New (Új) elemre.
Az Integration Runtime Setup (Integration Runtime beállítása) ablakban válassza a Perform data movement and dispatch activities to external computes (Adatáthelyezés és tevékenységek kiosztása külső számításokhoz) lehetőséget, majd kattintson a Next (Tovább) gombra.
Válassza a Private Network (Magánhálózat) lehetőséget, majd kattintson a Next (Tovább) gombra.
Írja be a MySelfHostedIR nevet a név mezőjébe, és kattintson a Next (Tovább) gombra.
Másolja ki az Integration Runtime hitelesítési kulcsát a másolási gombra kattintva, majd mentse el. Ne zárja be az ablakot. Ezzel a kulccsal fogja regisztrálni a virtuális gépen telepített IR-t.
Integration Runtime telepítése virtuális gépre
Az Azure-beli virtuális gépen töltse le a saját üzemeltetésű integrációs modult. Az előző lépésben megszerzett hitelesítési kulccsal regisztrálja manuálisan a helyi Integration Runtime-ot.
A helyi Integration Runtime sikeres regisztrációja esetén a következő üzenet jelenik meg.
Kattintson a Launch Configuration Manager (Configuration Manager indítása) elemre. A csomópont a felhőszolgáltatáshoz való csatlakozásakor a következő oldal jelenik meg:
Helyi IR az Azure Data Factory felhasználói felületén
Az Azure Data Factory felhasználói felületén meg kell jelennie a helyi virtuális gép nevének és állapotának.
Kattintson a Finish (Befejezés) gombra az Integration Runtime Setup (Integration Runtime beállítása) ablak bezárásához. Az Integration Runtime-ok listáján megjelenik a helyi IR.
Társított szolgáltatások létrehozása
Ebben a részben két társított szolgáltatást hoz létre és helyez üzembe:
- Egy Azure Storage-beli társított szolgáltatást, amely egy Azure Storage-fiókot társít az adat-előállítóhoz. Ez a tároló a HDInsight-fürt által használt elsődleges tároló. Ebben az esetben ezt az Azure Storage-fiókot használjuk a Hive-szkript és a szkript kimenetének tárolására.
- Egy HDInsight társított szolgáltatást. Az Azure Data Factory elküldi a Hive-szkriptet ehhez a HDInsight-fürthöz végrehajtás céljából.
Azure Storage társított szolgáltatás létrehozása
Váltson a Linked Services (Társított szolgáltatások) lapra, és kattintson a New (Új) elemre.
A New Linked Service (Új társított szolgáltatás) ablakban válassza az Azure Blob Storage lehetőséget, majd kattintson a Continue (Folytatás) elemre.
Az Új társított szolgáltatás ablakban végezze el az alábbi lépéseket:
A Név mezőbe írja az AzureStorageLinkedService nevet.
Válassza a MySelfHostedIR elemet a Connect via integration runtime (Csatlakozás integrációs modulon keresztül) lehetőségnél.
A Storage-fiók neve elemnél válassza ki saját Azure Storage-fiókját.
Ha tesztelni szeretné a tárfiókkal létrejövő kapcsolatot, kattintson a Test connection (Kapcsolat tesztelése) lehetőségre.
Kattintson a Mentés gombra.
HDInsight társított szolgáltatás létrehozása
Kattintson ismét a New (Új) gombra egy további társított szolgáltatás létrehozásához.
A Compute (Számítás) lapon válassza az Azure HDInsight lehetőséget, majd kattintson a Continue (Folytatás) gombra.
Az Új társított szolgáltatás ablakban végezze el az alábbi lépéseket:
A Name (Név) mezőben adja meg a következőt: AzureHDInsightLinkedService.
Válassza a Bring your own HDInsight (Saját HDInsight használata) lehetőséget.
A HDI cluster (HDI-fürt) elemnél válassza ki saját HDInsight-fürtjét.
Adja meg a HDInsight-fürthöz tartozó felhasználónevet.
Adja meg a felhasználónévhez tartozó jelszót.
A cikk azt feltételezi, hogy a fürtöt az interneten éri el. Például hogy a https://clustername.azurehdinsight.net
címen tud csatlakozni a fürthöz. Ez a cím a nyilvános átjárót használja, amely nem érhető el, ha az internetes hozzáférés korlátozva lett hálózati biztonsági csoportokkal (NSG-kkel) vagy felhasználó által definiált útvonalakkal (UDR-ekkel). Ahhoz, hogy a Data Factory feladatokat küldhessen az Azure virtuális hálózaton található HDInsight-fürtre, az Azure virtuális hálózatot úgy kell konfigurálni, hogy az URL-cím feloldható legyen a HDInsight által használt átjáró magánhálózati IP-címére.
Az Azure Portalról nyissa meg a virtuális hálózatot, amelyen a HDInsight található. Nyissa meg a hálózati adaptert, amelynek a neve a következő karakterlánccal kezdődik:
nic-gateway-0
. Jegyezze fel a magánhálózati IP-címét. Például: 10.6.0.15.Ha az Azure virtuális hálózaton van DNS-kiszolgáló, frissítse a DNS-rekordot, hogy a HDInsight-fürt URL-címe (
https://<clustername>.azurehdinsight.net
) feloldható legyen a10.6.0.15
címre. Ha nincs DNS-kiszolgáló az Azure virtuális hálózaton, akkor átmeneti megoldást jelenthet, ha szerkeszti az összes, helyi Integration Runtime-csomópontként regisztrált virtuális gépet tartalmazó fájlt (C:\Windows\System32\drivers\etc) egy, a következőhöz hasonló bejegyzés hozzáadásával:10.6.0.15 myHDIClusterName.azurehdinsight.net
Folyamat létrehozása
Ebben a lépésben létrehoz egy Hive-tevékenységgel rendelkező új folyamatot. A tevékenység egy Hive-szkript végrehajtásával ad vissza adatokat egy minta táblából, és menti azokat egy megadott elérési útra.
Vegye figyelembe a következő szempontokat:
- A scriptPath annak a Hive-szkriptnek az elérési útjára mutat az Azure Storage-fiókon, amelyet a MyStorageLinkedService szolgáltatáshoz használt. Az elérési út megkülönbözteti a kis- és nagybetűket.
- Az Output egy, a Hive-szkriptben használt argumentum. Használja a
wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/
formátumot, hogy egy létező mappára mutasson az Azure Storage-ban. Az elérési út megkülönbözteti a kis- és nagybetűket.
A Data Factory felhasználói felületén, a bal oldali panelen kattintson a + (plusz) jelre, majd a Pipeline (Folyamat) elemre.
Az Activities (Tevékenységek) eszközkészletben bontsa ki a HDInsight elemet, és húzza a Hive tevékenységet a folyamat tervezőfelületére.
A tulajdonságok ablakban váltson a HDI Cluster (HDI-fürt) lapra, majd válassza az AzureHDInsightLinkedService lehetőséget a HDInsight Linked Service (HDInsight társított szolgáltatás) elemnél.
Váltson a Scripts (Szkriptek) lapra, és végezze el az alábbi lépéseket:
A Script Linked Service (Szkripthez társított szolgáltatás) elemnél válassza az AzureStorageLinkedService lehetőséget.
A File Path (Fájl elérési útja) elemnél kattintson a Browse Storage (Tallózás a tárolóban) lehetőségre.
A Choose a file or folder (Fájl vagy mappa választása) ablakban keressem meg a hivescripts mappát az adftutorial tárolóban, válassza ki a hivescript.hql fájlt, és kattintson a Finish (Befejezés) elemre.
Ellenőrizze, hogy megjelenik-e az adftutorial/hivescripts/hivescript.hql a fájl elérési útjánál.
A Script lapon bontsa ki az Advanced (Speciális) szakaszt.
Kattintson az Auto-fill from script (Automatikus kitöltés szkript alapján) elemre a Parameters (Paraméterek) menüpontban.
Adja meg a kimeneti paraméter értékét a következő formátumban:
wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/
. For example:wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/
.
Ahhoz, hogy közzétehesse az összetevőket a Data Factoryn, kattintson a Publish (Közzététel) gombra.
Folyamat futtatásának aktiválása
Először érvényesítse a folyamatot: kattintson a Validation (Érvényesítés) gombra az eszköztáron. Zárja be a Folyamatérvényesítés kimenete ablakot a jobb nyílra (>>)kattintva.
A folyamat futásának aktiválásához kattintson az Aktiválás gombra az eszköztáron, majd az Aktiválás most elemre.
A folyamat futásának monitorozása
Váltson a bal oldali Monitorozás lapra. Ekkor a folyamat futása megjelenik a Pipeline Runs (Folyamatfuttatások) listában.
A lista frissítéséhez kattintson a Refresh (Frissítés) elemre.
A folyamat futásához kapcsolódó tevékenységfuttatások megtekintéséhez kattintson a View Activity Runs (Tevékenységfuttatások megtekintése) műveletre az Actions (Műveletek) oszlopban. A többi műveleti hivatkozás a folyamat leállítására/újbóli futtatására szolgál.
Csak egy tevékenységfuttatás látható, mivel csak egy tevékenység fut a HDInsightHive típusú folyamaton. Az előző nézetre való visszaváltáshoz kattintson a fenti Pipelines (Folyamatok) hivatkozásra.
Ellenőrizze, hogy látja-e a kimeneti fájlt az adftutorial tároló outputfolder mappájában.
Kapcsolódó tartalom
Az oktatóanyagban az alábbi lépéseket hajtotta végre:
- Adat-előállító létrehozása
- Saját üzemeltetésű Integration Runtime létrehozása
- Azure Storage-beli és Azure HDInsight társított szolgáltatások létrehozása
- Folyamat létrehozása Hive-tevékenységgel
- Folyamat futtatásának aktiválása
- A folyamat futásának monitorozása
- Kimenet ellenőrzése
Folytassa a következő oktatóanyaggal, amelyben az adatok Azure Spark-fürtök használatával való átalakítását ismerheti meg:
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: