Megosztás a következőn keresztül:


Adatok átalakítása az Azure Virtual Networkben Hive-tevékenység használatával az Azure Data Factoryben az Azure Portal használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ebben az oktatóanyagban az Azure Portal segítségével hoz létre egy Data Factory-folyamatot, amely egy Azure virtuális hálózaton (VNet) lévő HDInsight-fürtön futó Hive-tevékenységgel alakítja át az adatokat. Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  • Adat-előállító létrehozása
  • Saját üzemeltetésű Integration Runtime létrehozása
  • Azure Storage-beli és Azure HDInsight társított szolgáltatások létrehozása
  • Folyamat létrehozása Hive-tevékenységgel
  • Folyamat futtatásának aktiválása
  • A folyamat futásának monitorozása
  • Kimenet ellenőrzése

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Előfeltételek

Megjegyzés:

We recommend that you use the Azure Az PowerShell module to interact with Azure. See Install Azure PowerShell to get started. To learn how to migrate to the Az PowerShell module, see Migrate Azure PowerShell from AzureRM to Az.

  • Egy Azure Storage-fiók. Létrehoz egy Hive-szkriptet, és feltölti az Azure Storage-ba. A Hive-szkript kimenetét ebben a Storage-fiókban tárolja a rendszer. A példában a HDInsight-fürt ezt az Azure Storage-fiókot használja elsődleges tárolóként.

  • Azure Virtual Network. Ha nem rendelkezik Azure virtuális hálózattal, hozzon létre egyet ezeket az utasításokat követve. Ebben a példában a HDInsight egy Azure virtuális hálózaton található. Itt látható az Azure virtuális hálózat egy példa konfigurációja.

    Create virtual network

  • HDInsight-fürt. Hozzon létre egy HDInsight-fürtöt, és csatolja az előző lépésben létrehozott virtuális hálózathoz az Azure HDInsight Azure virtuális hálózat segítségével történő bővítésével kapcsolatos cikk utasításait követve. Itt látható a virtuális hálózaton található HDInsight egy példa konfigurációja.

    HDInsight in a virtual network

  • Azure PowerShell. Kövesse az Azure PowerShell telepítését és konfigurálását ismertető cikkben szereplő utasításokat.

  • Egy virtuális gép. Hozzon létre egy Azure-beli virtuális gépet, és csatlakoztassa ahhoz a virtuális hálózathoz, amelyen a HDInsight-fürt található. Részletekért tekintse meg a virtuális gépek létrehozását ismertető cikket.

Hive-szkript feltöltése Blob Storage-fiókba

  1. Hozzon létre egy hivescript.hql nevű Hive SQL-fájlt a következő tartalommal:

    DROP TABLE IF EXISTS HiveSampleOut; 
    CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
    STORED AS TEXTFILE LOCATION '${hiveconf:Output}';
    
    INSERT OVERWRITE TABLE HiveSampleOut
    Select 
        clientid,
        market,
        devicemodel,
        state
    FROM hivesampletable
    
  2. Az Azure Blob Storage-ban hozzon létre egy adftutorial nevű tárolót, ha még nem létezik.

  3. Hozzon létre egy hivescripts nevű mappát.

  4. Töltse fel a hivescript.hql fájlt a hivescripts almappába.

Adat-előállító létrehozása

  1. Ha még nem hozta létre a data factoryt, kövesse a gyorsútmutató lépéseit : Adat-előállító létrehozása az Azure Portal és az Azure Data Factory Studio használatával. A létrehozás után keresse meg a data factoryt az Azure Portalon.

    Screenshot of home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Válassza a Megnyitás az Azure Data Factory Studio megnyitása csempén a adatintegráció alkalmazás külön lapon való elindításához.

Saját üzemeltetésű Integration Runtime létrehozása

Mivel a Hadoop-fürt egy virtuális hálózatban található, telepítenie kell egy helyi Integration Runtime-ot (IR) ugyanabban a virtuális hálózatban. Ebben a szakaszban egy új virtuális hálózatot fog létrehozni, amelyet aztán csatlakoztat ugyanahhoz a virtuális hálózathoz, és telepít rajta egy helyi IR-t. A helyi IR a Data Factory szolgáltatás számára lehetővé teszi a feldolgozási kérelmek kiosztását az HDInsighthoz hasonló számítási szolgáltatásokhoz a virtuális hálózaton belül. Az adatok mozgatására is lehetőséget biztosít a virtuális hálózatban található adattárak és az Azure között. Akkor kell helyi IR-t használni, ha az adattár vagy a számítási feladat szintén helyszíni környezetben található.

  1. Az Azure Data Factory felhasználói felületén kattintson az ablak alján látható Connections (Kapcsolatok) elemre, majd váltson át az Integration Runtimes lapra, és kattintson az eszköztáron a + New (Új) elemre.

    New integration runtime menu

  2. Az Integration Runtime Setup (Integration Runtime beállítása) ablakban válassza a Perform data movement and dispatch activities to external computes (Adatáthelyezés és tevékenységek kiosztása külső számításokhoz) lehetőséget, majd kattintson a Next (Tovább) gombra.

    Select perform data movement and dispatch activities option

  3. Válassza a Private Network (Magánhálózat) lehetőséget, majd kattintson a Next (Tovább) gombra.

    Select private network

  4. Írja be a MySelfHostedIR nevet a név mezőjébe, és kattintson a Next (Tovább) gombra.

    Specify integration runtime name

  5. Másolja ki az Integration Runtime hitelesítési kulcsát a másolási gombra kattintva, majd mentse el. Ne zárja be az ablakot. Ezzel a kulccsal fogja regisztrálni a virtuális gépen telepített IR-t.

    Copy authentication key

Integration Runtime telepítése virtuális gépre

  1. Az Azure-beli virtuális gépen töltse le a saját üzemeltetésű integrációs modult. Az előző lépésben megszerzett hitelesítési kulccsal regisztrálja manuálisan a helyi Integration Runtime-ot.

    Register integration runtime

  2. A helyi Integration Runtime sikeres regisztrációja esetén a következő üzenet jelenik meg.

    Registered successfully

  3. Kattintson a Launch Configuration Manager (Configuration Manager indítása) elemre. A csomópont a felhőszolgáltatáshoz való csatlakozásakor a következő oldal jelenik meg:

    Node is connected

Helyi IR az Azure Data Factory felhasználói felületén

  1. Az Azure Data Factory felhasználói felületén meg kell jelennie a helyi virtuális gép nevének és állapotának.

    Existing self-hosted nodes

  2. Kattintson a Finish (Befejezés) gombra az Integration Runtime Setup (Integration Runtime beállítása) ablak bezárásához. Az Integration Runtime-ok listáján megjelenik a helyi IR.

    Self-hosted IR in the list

Társított szolgáltatások létrehozása

Ebben a részben két társított szolgáltatást hoz létre és helyez üzembe:

  • Egy Azure Storage-beli társított szolgáltatást, amely egy Azure Storage-fiókot társít az adat-előállítóhoz. Ez a tároló a HDInsight-fürt által használt elsődleges tároló. Ebben az esetben ezt az Azure Storage-fiókot használjuk a Hive-szkript és a szkript kimenetének tárolására.
  • Egy HDInsight társított szolgáltatást. Az Azure Data Factory elküldi a Hive-szkriptet ehhez a HDInsight-fürthöz végrehajtás céljából.

Azure Storage társított szolgáltatás létrehozása

  1. Váltson a Linked Services (Társított szolgáltatások) lapra, és kattintson a New (Új) elemre.

    New linked service button

  2. A New Linked Service (Új társított szolgáltatás) ablakban válassza az Azure Blob Storage lehetőséget, majd kattintson a Continue (Folytatás) elemre.

    Select Azure Blob Storage

  3. Az Új társított szolgáltatás ablakban végezze el az alábbi lépéseket:

    1. A Név mezőbe írja az AzureStorageLinkedService nevet.

    2. Válassza a MySelfHostedIR elemet a Connect via integration runtime (Csatlakozás integrációs modulon keresztül) lehetőségnél.

    3. A Storage-fiók neve elemnél válassza ki saját Azure Storage-fiókját.

    4. Ha tesztelni szeretné a tárfiókkal létrejövő kapcsolatot, kattintson a Test connection (Kapcsolat tesztelése) lehetőségre.

    5. Kattintson a Mentés gombra.

      Specify Azure Blob Storage account

HDInsight társított szolgáltatás létrehozása

  1. Kattintson ismét a New (Új) gombra egy további társított szolgáltatás létrehozásához.

    New linked service button

  2. A Compute (Számítás) lapon válassza az Azure HDInsight lehetőséget, majd kattintson a Continue (Folytatás) gombra.

    Select Azure HDInsight

  3. Az Új társított szolgáltatás ablakban végezze el az alábbi lépéseket:

    1. A Name (Név) mezőben adja meg a következőt: AzureHDInsightLinkedService.

    2. Válassza a Bring your own HDInsight (Saját HDInsight használata) lehetőséget.

    3. A HDI cluster (HDI-fürt) elemnél válassza ki saját HDInsight-fürtjét.

    4. Adja meg a HDInsight-fürthöz tartozó felhasználónevet.

    5. Adja meg a felhasználónévhez tartozó jelszót.

      Azure HDInsight settings

A cikk azt feltételezi, hogy a fürtöt az interneten éri el. Például hogy a https://clustername.azurehdinsight.net címen tud csatlakozni a fürthöz. Ez a cím a nyilvános átjárót használja, amely nem érhető el, ha az internetes hozzáférés korlátozva lett hálózati biztonsági csoportokkal (NSG-kkel) vagy felhasználó által definiált útvonalakkal (UDR-ekkel). Ahhoz, hogy a Data Factory feladatokat küldhessen az Azure virtuális hálózaton található HDInsight-fürtre, az Azure virtuális hálózatot úgy kell konfigurálni, hogy az URL-cím feloldható legyen a HDInsight által használt átjáró magánhálózati IP-címére.

  1. Az Azure Portalról nyissa meg a virtuális hálózatot, amelyen a HDInsight található. Nyissa meg a hálózati adaptert, amelynek a neve a következő karakterlánccal kezdődik: nic-gateway-0. Jegyezze fel a magánhálózati IP-címét. Például: 10.6.0.15.

  2. Ha az Azure virtuális hálózaton van DNS-kiszolgáló, frissítse a DNS-rekordot, hogy a HDInsight-fürt URL-címe (https://<clustername>.azurehdinsight.net) feloldható legyen a 10.6.0.15 címre. Ha nincs DNS-kiszolgáló az Azure virtuális hálózaton, akkor átmeneti megoldást jelenthet, ha szerkeszti az összes, helyi Integration Runtime-csomópontként regisztrált virtuális gépet tartalmazó fájlt (C:\Windows\System32\drivers\etc) egy, a következőhöz hasonló bejegyzés hozzáadásával:

    10.6.0.15 myHDIClusterName.azurehdinsight.net

Folyamat létrehozása

Ebben a lépésben létrehoz egy Hive-tevékenységgel rendelkező új folyamatot. A tevékenység egy Hive-szkript végrehajtásával ad vissza adatokat egy minta táblából, és menti azokat egy megadott elérési útra.

Vegye figyelembe a következő szempontokat:

  • A scriptPath annak a Hive-szkriptnek az elérési útjára mutat az Azure Storage-fiókon, amelyet a MyStorageLinkedService szolgáltatáshoz használt. Az elérési út megkülönbözteti a kis- és nagybetűket.
  • Az Output egy, a Hive-szkriptben használt argumentum. Használja a wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/ formátumot, hogy egy létező mappára mutasson az Azure Storage-ban. Az elérési út megkülönbözteti a kis- és nagybetűket.
  1. A Data Factory felhasználói felületén, a bal oldali panelen kattintson a + (plusz) jelre, majd a Pipeline (Folyamat) elemre.

    New pipeline menu

  2. Az Activities (Tevékenységek) eszközkészletben bontsa ki a HDInsight elemet, és húzza a Hive tevékenységet a folyamat tervezőfelületére.

    drag-drop Hive activity

  3. A tulajdonságok ablakban váltson a HDI Cluster (HDI-fürt) lapra, majd válassza az AzureHDInsightLinkedService lehetőséget a HDInsight Linked Service (HDInsight társított szolgáltatás) elemnél.

    Select HDInsight linked service

  4. Váltson a Scripts (Szkriptek) lapra, és végezze el az alábbi lépéseket:

    1. A Script Linked Service (Szkripthez társított szolgáltatás) elemnél válassza az AzureStorageLinkedService lehetőséget.

    2. A File Path (Fájl elérési útja) elemnél kattintson a Browse Storage (Tallózás a tárolóban) lehetőségre.

      Browse storage

    3. A Choose a file or folder (Fájl vagy mappa választása) ablakban keressem meg a hivescripts mappát az adftutorial tárolóban, válassza ki a hivescript.hql fájlt, és kattintson a Finish (Befejezés) elemre.

      Choose a file or folder

    4. Ellenőrizze, hogy megjelenik-e az adftutorial/hivescripts/hivescript.hql a fájl elérési útjánál.

      Script settings

    5. A Script lapon bontsa ki az Advanced (Speciális) szakaszt.

    6. Kattintson az Auto-fill from script (Automatikus kitöltés szkript alapján) elemre a Parameters (Paraméterek) menüpontban.

    7. Adja meg a kimeneti paraméter értékét a következő formátumban: wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. For example: wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/.

      Script arguments

  5. Ahhoz, hogy közzétehesse az összetevőket a Data Factoryn, kattintson a Publish (Közzététel) gombra.

    Screenshot shows the option to publish to a Data Factory.

Folyamat futtatásának aktiválása

  1. Először érvényesítse a folyamatot: kattintson a Validation (Érvényesítés) gombra az eszköztáron. Zárja be a Folyamatérvényesítés kimenete ablakot a jobb nyílra (>>)kattintva.

    Validate pipeline

  2. A folyamat futásának aktiválásához kattintson az Aktiválás gombra az eszköztáron, majd az Aktiválás most elemre.

    Trigger now

A folyamat futásának monitorozása

  1. Váltson a bal oldali Monitorozás lapra. Ekkor a folyamat futása megjelenik a Pipeline Runs (Folyamatfuttatások) listában.

    Monitor pipeline runs

  2. A lista frissítéséhez kattintson a Refresh (Frissítés) elemre.

  3. A folyamat futásához kapcsolódó tevékenységfuttatások megtekintéséhez kattintson a View Activity Runs (Tevékenységfuttatások megtekintése) műveletre az Actions (Műveletek) oszlopban. A többi műveleti hivatkozás a folyamat leállítására/újbóli futtatására szolgál.

    View activity runs

  4. Csak egy tevékenységfuttatás látható, mivel csak egy tevékenység fut a HDInsightHive típusú folyamaton. Az előző nézetre való visszaváltáshoz kattintson a fenti Pipelines (Folyamatok) hivatkozásra.

    Activity runs

  5. Ellenőrizze, hogy látja-e a kimeneti fájlt az adftutorial tároló outputfolder mappájában.

    Output file

Az oktatóanyagban az alábbi lépéseket hajtotta végre:

  • Adat-előállító létrehozása
  • Saját üzemeltetésű Integration Runtime létrehozása
  • Azure Storage-beli és Azure HDInsight társított szolgáltatások létrehozása
  • Folyamat létrehozása Hive-tevékenységgel
  • Folyamat futtatásának aktiválása
  • A folyamat futásának monitorozása
  • Kimenet ellenőrzése

Folytassa a következő oktatóanyaggal, amelyben az adatok Azure Spark-fürtök használatával való átalakítását ismerheti meg: