Adatok másolása az Azure Blob Storage-ból egy Azure SQL Database-adatbázisba az Azure Data Factory használatával

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Ebben az oktatóanyagban az Azure Data Factory felhasználói felületének használatával hoz létre egy adat-előállítót. A data factory folyamata adatokat másol az Azure Blob Storage-ból egy Azure SQL Database-adatbázisba. Az oktatóanyagban szereplő konfigurációs minta fájlalapú adattárból relációs adattárba való másolásra vonatkozik. A forrásként és fogadóként támogatott adattárak listája a támogatott adattárakat tartalmazó táblázatban található.

Megjegyzés:

Ha még csak ismerkedik a Data Factory használatával, olvassa el az Azure Data Factory használatának első lépéseit ismertető cikket.

Az oktatóanyagban az alábbi lépéseket fogja végrehajtani:

  • Adat-előállító létrehozása
  • Másolási tevékenységgel rendelkező folyamat létrehozása.
  • A folyamat próbafuttatása
  • A folyamat manuális aktiválása
  • A folyamat aktiválása ütemezés szerint
  • A folyamat és a tevékenységek futásának monitorozása

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes Azure-fiókot a virtuális gép létrehozásának megkezdése előtt.
  • Egy Azure Storage-fiók. A Blob Storage lesz használatban forrásadattárként. Ha még nem rendelkezik tárfiókkal, tekintse meg az Azure Storage-fiók létrehozásának lépéseit ismertető cikket.
  • Azure SQL Database Ezt az adatbázist használjuk fogadóadattárként. Ha nem rendelkezik adatbázissal az Azure SQL Database-ben, a létrehozás lépéseit az Adatbázis létrehozása az Azure SQL Database-ben című témakörben találja.

Blob és SQL-tábla létrehozása

Készítse elő a Blob Storage-et és az SQL Database-t az oktatóanyaghoz a következő lépésekkel.

Forrás blob létrehozása

  1. Indítsa el a Jegyzettömböt. Másolja be a következő szöveget, és mentse emp.txt néven egy fájlba a lemezen.

    FirstName,LastName
    John,Doe
    Jane,Doe
    
  2. Hozzon létre egy adftutorial nevű tárolót a Blob Storage-ban. Ebben a tárolóban hozzon létre egy input nevű mappát. Ezután töltse fel az emp.txt fájlt az input mappába. Ezekhez a feladatokhoz használja az Azure Portalt vagy olyan eszközöket, mint az Azure Storage Explorer.

Fogadó SQL-tábla létrehozása

  1. Az alábbi SQL-szkripttel hozza létre a dbo.emp táblát az adatbázisban:

    CREATE TABLE dbo.emp
    (
        ID int IDENTITY(1,1) NOT NULL,
        FirstName varchar(50),
        LastName varchar(50)
    )
    GO
    
    CREATE CLUSTERED INDEX IX_emp_ID ON dbo.emp (ID);
    
  2. Engedélyezze az SQL Server elérését az Azure-szolgáltatások számára. Győződjön meg arról, hogy az Azure-szolgáltatásokhoz való hozzáférés engedélyezéseBE van kapcsolva az SQL Serverhez, hogy a Data Factory tudjon adatokat írni az SQL Serverre. A beállítás ellenőrzéséhez és bekapcsolásához lépjen a logikai SQL Server > Áttekintés > kiszolgálói tűzfal> beállítása beállításhoz az Azure-szolgáltatásokhoz való hozzáférés engedélyezése beállítást BE értékre.

Adat-előállító létrehozása

Ebben a lépésben létrehoz egy adat-előállítót, és elindítja a Data Factory felhasználói felületét, hogy létrehozzon egy folyamatot az adat-előállítóban.

  1. Nyissa meg a Microsoft Edge-et vagy a Google Chrome-ot. A Data Factory felhasználói felületének használata jelenleg csak a Microsoft Edge-ben és a Google Chrome-ban támogatott.

  2. A bal oldali menüben válassza az Erőforrás-integrációs>>adat-előállító létrehozása lehetőséget.

  3. A Data Factory létrehozása lap Alapszintű beállítások lapján válassza ki azt az Azure-előfizetést, amelyben létre szeretné hozni az adat-előállítót.

  4. Erőforráscsoport: hajtsa végre a következő lépések egyikét:

    a. Válasszon ki egy meglévő erőforráscsoportot a legördülő listából.

    b. Válassza az Új létrehozása lehetőséget, és adja meg egy új erőforráscsoport nevét.

    Az erőforráscsoportokkal kapcsolatos információkért tekintse meg az Erőforráscsoportok használata az Azure-erőforrások kezeléséhez ismertető cikket.

  5. A Régió területen válassza ki az adat-előállító helyét. A legördülő listán csak a támogatott helyek jelennek meg. Az adat-előállítók által használt adattárak (például az Azure Storage és az SQL Database) és számítási erőforrások (például az Azure HDInsight) más régiókban is lehetnek.

  6. A Név mezőbe írja be az ADFTutorialDataFactory nevet.

    Az Azure data factory nevének globálisan egyedinek kell lennie. Ha a név értékével kapcsolatos hibaüzenet kap, adjon meg másik nevet az adat-előállítóhoz. (például a yournameADFTutorialDataFactory). A Data Factory-összetevők elnevezési szabályait a Data Factory elnevezési szabályait ismertető cikkben találja.

    New data factory error message for duplicate name.

  7. A Verzió résznél válassza a V2 értéket.

  8. Válassza felül a Git konfigurációs lapját, majd jelölje be a Git konfigurálása később jelölőnégyzetet.

  9. Válassza a Véleményezés + létrehozás lehetőséget, majd az ellenőrzés sikeres befejezése után válassza a Létrehozás lehetőséget .

  10. A létrehozás befejezése után megjelenik az értesítés az Értesítések központban. Válassza az Ugrás az erőforrásra lehetőséget a Data Factory lapra való navigáláshoz.

  11. Válassza a Megnyitás az Azure Data Factory Studio megnyitása csempén az Azure Data Factory felhasználói felületének külön lapon való elindításához.

Folyamat létrehozása

Ebben a lépésben létrehoz egy másolási tevékenységgel rendelkező folyamatot az adat-előállítóban. A másolási tevékenység adatokat másol egy Blob Storage-ból egy SQL Database-be. A rövid útmutatóban létrehozott egy folyamatot az alábbi lépéseket követve:

  1. Hozza létre a társított szolgáltatást.
  2. Hozzon létre bemeneti és kimeneti adatkészleteket.
  3. Folyamat létrehozása.

Ebben az oktatóanyagban először létrehozzuk a folyamatot. Ezután társított szolgáltatásokat és adatkészleteket hozunk létre, amikor szükség van rájuk a folyamat konfigurálásához.

  1. A kezdőlapon válassza az Orchestrate (Vezénylés) lehetőséget.

    Screenshot that shows the ADF home page.

  2. Az Általános panel Tulajdonságok területén adja meg a CopyPipeline nevet. Ezután a jobb felső sarokban található Tulajdonságok ikonra kattintva összecsukja a panelt.

  3. A Tevékenységek eszközmezőben bontsa ki az Áthelyezés és átalakításkategóriát, és húzza az adatmásolási tevékenységet az eszközmezőből a folyamattervező felületére. Adja meg a CopyFromBlobToSql értéket a Név mezőben.

    Copy activity

Forrás konfigurálása

Tipp.

Ebben az oktatóanyagban a fiókkulcsot használja a forrásadattár hitelesítési típusaként, de más támogatott hitelesítési módszereket is választhat: SAS URI, szolgáltatásnév és felügyelt identitás, ha szükséges. A részletekért tekintse meg a cikk megfelelő szakaszait. Az adattárak titkos kulcsainak biztonságos tárolásához javasoljuk az Azure Key Vault használatát is. Részletes illusztrációkat ebben a cikkben talál.

  1. Lépjen a Forrás lapra. Forrásadatkészlet létrehozásához válassza az + Új lehetőséget.

  2. Az Új adathalmaz párbeszédpanelen válassza az Azure Blob Storage lehetőséget, majd a Folytatás lehetőséget. A forrásadatok egy Blob Storage-ban vannak, tehát forrásadatkészletként az Azure Blob Storage-ot válassza.

  3. A Formátum kiválasztása párbeszédpanelen válassza ki az adatok formátumtípusát, majd válassza a Folytatás lehetőséget.

  4. A Tulajdonságok beállítása párbeszédpanelen adja meg a SourceBlobDataset for Name kifejezést. Jelölje be az Első sor fejlécként jelölőnégyzetét. A Csatolt szolgáltatás szövegmezőben válassza az + Új lehetőséget.

  5. Az Új társított szolgáltatás (Azure Blob Storage) párbeszédpanelen adja meg az AzureStorageLinkedService nevet, és válassza ki a tárfiókot a Tárfiók névlistájából. Tesztelje a kapcsolatot, és válassza a Létrehozás lehetőséget a társított szolgáltatás üzembe helyezéséhez.

  6. A társított szolgáltatás létrehozása után a rendszer vissza lép a Tulajdonságok beállítása lapra. A Fájl elérési útja mellett válassza a Tallózás lehetőséget.

  7. Lépjen az adftutorial/input mappára, válassza ki az emp.txt fájlt, majd kattintson az OK gombra.

  8. Kattintson az OK gombra. Automatikusan a folyamatoldalra navigál. A Forrás lapon ellenőrizze, hogy a SourceBlobDataset van-e kiválasztva. A lapon lévő adatok előnézetének megtekintéséhez válassza az Adatok előnézete elemet.

    Source dataset

Fogadó konfigurálása

Tipp.

Ebben az oktatóanyagban az SQL-hitelesítést használja a fogadó adattár hitelesítési típusaként, de más támogatott hitelesítési módszereket is választhat: szükség esetén szolgáltatásnév és felügyelt identitás. A részletekért tekintse meg a cikk megfelelő szakaszait. Az adattárak titkos kulcsainak biztonságos tárolásához javasoljuk az Azure Key Vault használatát is. Részletes illusztrációkat ebben a cikkben talál.

  1. Váltson a Fogadó lapra, és válassza az + Új elemet egy fogadó-adatkészlet létrehozásához.

  2. Az Új adathalmaz párbeszédpanelen írja be az "SQL" kifejezést a keresőmezőbe az összekötők szűréséhez, válassza az Azure SQL Database lehetőséget, majd válassza a Folytatás lehetőséget. Ebben az oktatóanyagban adatokat másol egy SQL Database-be.

  3. A Tulajdonságok beállítása párbeszédpanelen adja meg a Név OutputSqlDataset értékét. A Társított szolgáltatás legördülő listában válassza az + Új lehetőséget. Az adatkészleteket mindig társítani kell egy társított szolgáltatáshoz. A társított szolgáltatás rendelkezik az kapcsolati sztring, amelyet a Data Factory használ az SQL Database-hez való futásidőben való csatlakozáshoz. Az adatkészlet meghatározza azt a tárolót, mappát és fájlt (az utóbbi nem kötelező), ahova a rendszer az adatokat másolja.

  4. Az Új társított szolgáltatás (Azure SQL Database) párbeszédpanelen hajtsa végre a következő lépéseket:

    a. A Név mezőbe írja az AzureSqlDatabaseLinkedService nevet.

    b. A Kiszolgáló neve mezőben válassza ki az SQL Server-példányát.

    c. Az Adatbázis neve területen válassza ki az adatbázist.

    d. A Felhasználónév mezőben adja meg a felhasználó nevét.

    e. A Jelszó mezőben adja meg a felhasználó jelszavát.

    f. A kapcsolat teszteléséhez válassza a Kapcsolat tesztelése elemet.

    g. Válassza a Létrehozás lehetőséget a társított szolgáltatás üzembe helyezéséhez.

    Save new linked service

  5. Automatikusan a Tulajdonságok beállítása párbeszédpanelre lép. A Tábla területen válassza a [dbo].[emp] elemet. Ezután válassza az OK gombra.

  6. Lépjen a folyamatot tartalmazó lapra, és győződjön meg arról, hogy a Fogadóadattár mezőben az OutputSqlDataset érték van kiválasztva.

    Pipeline tab

A forrás sémáját igény szerint megfeleltetheti a célséma megfelelő sémájának, ha a másolási tevékenység sémaleképezését követi.

A folyamat érvényesítése

A folyamat érvényesítéséhez válassza az Érvényesítés elemet az eszköztáron.

A folyamathoz társított JSON-kódot a jobb felső sarokban található Kód gombra kattintva tekintheti meg.

Debug and publish the pipeline

Elvégezheti a folyamat hibakeresését, mielőtt összetevőket (társított szolgáltatások, adatkészletek és folyamat) tenne közzé a Data Factoryben vagy a saját Azure Repos Git-adattárában.

  1. A folyamat hibakereséséhez válassza a Hibakeresés elemet az eszköztáron. A folyamat futtatási állapotát az ablak alján található Kimenet lapon tekintheti meg.

  2. Miután a folyamat sikeresen lefutott, a felső eszköztáron válassza az Összes közzététele lehetőséget. Ez a művelet közzéteszi a létrehozott entitásokat (adatkészleteket és folyamatokat) a Data Factoryben.

  3. Várjon, amíg megjelenik a Sikeres közzététel üzenet. Az értesítési üzenetek megtekintéséhez kattintson az Értesítések megjelenítése elemre (csengő gomb) a jobb felső sarokban.

A folyamat manuális aktiválása

Ebben a lépésben manuálisan fogja aktiválni az előző lépésben közzétett folyamatot.

  1. Kattintson az Aktiválás gombra az eszköztáron, majd válassza az Aktiválás most lehetőséget. A Folyamatfuttatás lapon válassza az OK gombot.

  2. Lépjen a bal oldali Figyelés lapra. Itt láthat egy manuális eseményindító által aktivált folyamatfuttatást. A FOLYAMATNÉV oszlop hivatkozásai segítségével megtekintheti a tevékenység részleteit, és újrafuttathatja a folyamatot.

    Monitor pipeline runs

  3. A folyamatfuttatáshoz társított tevékenységfuttatások megtekintéséhez válassza a CopyPipeline hivatkozást a PIPELINE NAME oszlop alatt. Ebben a példában csak egy tevékenység van, így csak egy bejegyzés jelenik meg a listában. A másolási művelettel kapcsolatos részletekért válassza a Részletek hivatkozást (szemüveg ikon) a TEVÉKENYSÉGNÉV oszlopban. A folyamatfuttatások nézetre való visszalépéshez válassza a felül található Összes folyamatfuttatás lehetőséget. A nézet frissítéséhez válassza a Frissítés parancsot.

    Monitor activity runs

  4. Ellenőrizze, hogy két további sor van-e hozzáadva az emp táblához az adatbázisban.

A folyamat aktiválása ütemezés szerint

Ebben az ütemezésben egy ütemezési eseményindítót fog létrehozni a folyamathoz. Az eseményindító a meghatározott ütemezés (például óránként vagy naponta) szerint futtatja a folyamatot. Itt beállíthatja, hogy az eseményindító percenként fusson a megadott befejezési dátumig.

  1. Lépjen a bal oldali Monitorozás lap feletti Létrehozás lapra.

  2. Lépjen a folyamathoz, kattintson az eszköztáron az Aktiválás, majd az Új/Szerkesztés lehetőségre.

  3. Az Eseményindítók hozzáadása párbeszédpanelen válassza az + Új az eseményindító kiválasztásához területet.

  4. Az Új eseményindító ablakban hajtsa végre az alábbi lépéseket:

    a. A Név mezőbe írja a RunEveryMinute nevet.

    b. Frissítse az eseményindító kezdési dátumát . Ha a dátum az aktuális dátum előtt van, az eseményindító a módosítás közzététele után lép érvénybe.

    c. Az Időzóna területen válassza ki a legördülő listát.

    d. Állítsa az ismétlődés 1 percenkénti értékre.

    e. Jelölje be a Záró dátum megadása jelölőnégyzetet, és frissítse a Befejezés a részre, hogy néhány perccel korábbi legyen az aktuális dátumidőnél. Az eseményindító csak a módosítások közzététele után lesz aktív. Ha csak néhány percre van egymástól, és addig nem teszi közzé, akkor nem fog eseményindítót futtatni.

    f. Aktivált beállítás esetén válassza az Igen lehetőséget.

    g. Kattintson az OK gombra.

    Fontos

    Minden egyes folyamatfuttatásnak van bizonyos költségvonzata, ezért a befejezés időpontját ezt figyelembe véve adja meg.

  5. Az eseményindító szerkesztése lapon tekintse át a figyelmeztetést, majd válassza a Mentés lehetőséget. A jelen példában található folyamat nem használ paramétereket.

  6. Kattintson az Összes közzététele gombra a módosítás közzétételéhez.

  7. Lépjen a bal oldali Figyelés lapra az aktivált folyamatfuttatások megtekintéséhez.

    Triggered pipeline runs

  8. A Folyamatfuttatások nézetről a Trigger-futtatások nézetre való váltáshoz válassza az ablak bal oldalán található Trigger-futtatások lehetőséget.

  9. Itt megtekintheti az eseményindító-futtatások listáját.

  10. Ellenőrizze, hogy a megadott befejezési időig percenként (folyamatfuttatásonként) két sor be van-e szúrva az emp táblába.

A példában szereplő folyamat adatokat másol az egyik helyről egy másikra a Blob Storage-ban. Megtanulta végrehajtani az alábbi műveleteket:

  • Adat-előállító létrehozása
  • Másolási tevékenységgel rendelkező folyamat létrehozása.
  • A folyamat próbafuttatása
  • A folyamat manuális aktiválása
  • A folyamat aktiválása ütemezés szerint
  • A folyamat és a tevékenységek futásának monitorozása

A következő oktatóanyagra lépve megismerheti az adatok helyszíni rendszerből felhőre való másolásának folyamatát: