Megosztás a következőn keresztül:


Kötegelt végpontok futtatása az Azure Data Factoryből

ÉRVÉNYES:Azure CLI ml-bővítmény v2 (aktuális)Python SDK azure-ai-ml v2 (aktuális)

A big data olyan szolgáltatást igényel, amely képes folyamatok vezénylésére és üzembe helyezésére a nyers adatok hatalmas tárolóinak végrehajtható üzleti elemzésekké való finomításához. Az Azure Data Factory egy felügyelt felhőszolgáltatás, amely ezekhez az összetett hibrid kinyerési-átalakító-betöltési (ETL), a extract-load-transform (ELT) és az adatintegrációs projektekhez készült.

Az Azure Data Factory lehetővé teszi olyan folyamatok létrehozását, amelyek több adatátalakítást vezényelhetnek, és egyetlen egységként kezelhetik őket. A Batch-végpontok kiválóan alkalmasak arra, hogy az ilyen feldolgozási munkafolyamatok egyik lépésévé váljanak. Ebben a példában megtudhatja, hogyan használhat kötegelt végpontokat az Azure Data Factory-tevékenységekben a webes meghívási tevékenységre és a REST API-ra támaszkodva.

Előfeltételek

Hitelesítés kötegvégpontokon

Az Azure Data Factory a webes meghívási tevékenység használatával meghívhatja a kötegelt végpontok REST API-jait. A Batch-végpontok támogatják a Microsoft Entra-azonosítót az engedélyezéshez, ezért az API-knak küldött kérések megfelelő hitelesítést igényelnek.

Szolgáltatásnévvel vagy felügyelt identitással végezhet hitelesítést a Batch-végpontokon. Javasoljuk, hogy felügyelt identitást használjon, mivel ez leegyszerűsíti a titkos kódok használatát.

  1. Az Azure Data Factory által felügyelt identitással kommunikálhat a Batch-végpontokkal. Ebben az esetben csak azt kell meggyőződnie, hogy az Azure Data Factory-erőforrás felügyelt identitással lett üzembe helyezve.

  2. Ha nem rendelkezik Azure Data Factory-erőforrással, vagy az már felügyelt identitás nélkül lett üzembe helyezve, a következő lépéseket követve hozza létre: Felügyelt identitás az Azure Data Factoryhez.

    Figyelmeztetés

    Figyelje meg, hogy az erőforrás-identitás üzembe helyezése után történő módosítása nem lehetséges az Azure Data Factoryben. Az erőforrás létrehozása után újra létre kell hoznia, ha módosítania kell annak identitását.

  3. Az üzembe helyezést követően adjon hozzáférést a létrehozott erőforrás felügyelt identitásához az Azure Machine Learning-munkaterületen a Hozzáférés engedélyezése című témakörben leírtak szerint. Ebben a példában a szolgáltatásnévnek a következőre lesz szüksége:

    1. A munkaterület engedélye kötegtelepítések olvasására és műveletek végrehajtására.
    2. Olvasási/írási engedélyek az adattárakban.
    3. Olvasási engedélyek az adatbevitelként megjelölt felhőbeli helyeken (tárfiókokban).

A folyamat ismertetése

Létrehozunk egy folyamatot az Azure Data Factoryben, amely meghívhat egy adott kötegvégpontot bizonyos adatokon keresztül. A folyamat REST használatával kommunikál az Azure Machine Learning kötegelt végpontjaival. Ha többet szeretne tudni a kötegelt végpontok REST API-jának használatáról, olvassa el a Feladatok létrehozása és a kötegelt végpontok bemeneti adatainak létrehozása című cikket.

A folyamat a következőképpen fog kinézni:

Diagram, amely a létrehozott folyamat magas szintű szerkezetét mutatja be.

A következő tevékenységekből áll:

  • Batch-Endpoint futtatása: Ez egy webes tevékenység, amely a batch-végpont URI-jával hívja meg. Átadja a bemeneti adatok URI-jának helyét, ahol az adatok találhatók, és a várt kimeneti fájlt.
  • Várjon a feladatra: Ez egy huroktevékenység, amely ellenőrzi a létrehozott feladat állapotát, és megvárja a befejezést, befejezettként vagy sikertelenként. Ez a tevékenység a következő tevékenységeket használja:
    • Állapot ellenőrzése: Ez egy webes tevékenység, amely lekérdezi annak a feladat-erőforrásnak az állapotát, amelyet a Batch-Endpoint-tevékenység futtatása válaszként ad vissza.
    • Várakozás: Ez egy várakozási tevékenység, amely szabályozza a feladat állapotának lekérdezési gyakoriságát. Az alapértelmezett érték 120 (2 perc).

A folyamathoz a következő paramétereket kell konfigurálni:

Paraméter Leírás Mintaérték
endpoint_uri A végpont pontozási URI-ja https://<endpoint_name>.<region>.inference.ml.azure.com/jobs
poll_interval A feladat állapotának ellenőrzése előtt várandó másodpercek száma. Alapértelmezett érték: 120. 120
endpoint_input_uri A végpont bemeneti adatai. Több adatbeviteli típus is támogatott. Győződjön meg arról, hogy a feladat végrehajtásához használt kezelői identitás hozzáfér a mögöttes helyhez. Másik lehetőségként, ha adattárakat használ, győződjön meg arról, hogy a hitelesítő adatok ott vannak feltüntetve. azureml://datastores/.../paths/.../data/
endpoint_input_type A megadott bemeneti adatok típusa. Jelenleg a kötegvégpontok támogatják a mappákat (UriFolder) és a fájlokat (UriFile). Alapértelmezett érték: UriFolder. UriFolder
endpoint_output_uri A végpont kimeneti adatfájlja. A Machine Learning-munkaterülethez csatolt adattár kimeneti fájljának elérési útjának kell lennie. Más típusú URI-k nem támogatottak. Használhatja az alapértelmezett Azure Machine Learning-adattárat, melynek neve workspaceblobstore. azureml://datastores/workspaceblobstore/paths/batch/predictions.csv

Figyelmeztetés

Ne feledje, hogy endpoint_output_uri egy még nem létező fájl elérési útjának kell lennie. Ellenkező esetben a feladat meghiúsul azzal a hibával , hogy az elérési út már létezik.

Lépések

A folyamat meglévő Azure Data Factoryben való létrehozásához és kötegelt végpontok meghívásához kövesse az alábbi lépéseket:

  1. Győződjön meg arról, hogy a kötegelt végpontot futtató számítás rendelkezik engedélyekkel az Azure Data Factory által bemenetként megadott adatok csatlakoztatásához. Figyelje meg, hogy a végpontot meghívó identitás (ebben az esetben az Azure Data Factory) továbbra is hozzáférést biztosít. Azonban ahhoz a számításhoz, ahol a kötegvégpont fut, engedéllyel kell rendelkeznie az Azure Data Factory által biztosított tárfiók csatlakoztatásához. További részletekért tekintse meg a Tárolási szolgáltatások elérése című témakört.

  2. Nyissa meg az Azure Data Factory Studiót, és a Factory Resources alatt kattintson a pluszjelre.

  3. Folyamatimportálás>kiválasztása folyamatsablonból

  4. A rendszer kérni fogja, hogy válasszon ki egy zip fájlt. A következő sablont használja felügyelt identitások használata esetén, vagy szolgáltatásnév használata esetén az alábbi sablont.

  5. A folyamat előnézete megjelenik a portálon. Kattintson a Sablon használata elemre.

  6. A folyamat Run-BatchEndpoint néven jön létre.

  7. Konfigurálja a használt kötegtelepítés paramétereit:

Figyelmeztetés

A feladat elküldése előtt győződjön meg arról, hogy a batch-végpont rendelkezik egy alapértelmezett üzembe helyezéssel. A létrehozott folyamat meghívja a végpontot, ezért létre kell hoznia és konfigurálnia kell egy alapértelmezett üzembe helyezést.

Tipp.

A legjobb újrafelhasználhatóság érdekében használja a létrehozott folyamatot sablonként, és hívja meg más Azure Data Factory-folyamatokból a Folyamat végrehajtása tevékenység használatával. Ebben az esetben ne konfigurálja a belső folyamat paramétereit, hanem adja át őket paraméterként a külső folyamatból, ahogyan az az alábbi képen látható:

Képernyőkép az eredményként kapott folyamathoz várt folyamatparaméterekről egy másik folyamatból való meghíváskor.

  1. A folyamat készen áll a használatra.

Korlátozások

Az Azure Machine Learning-kötegek üzembe helyezésekor vegye figyelembe a következő korlátozásokat:

Adatbemenetek

  • Bemenetként csak Azure Machine Learning-adattárak vagy Azure Storage-fiókok (Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2) támogatottak. Ha a bemeneti adatok egy másik forrásban találhatóak, használja az Azure Data Factory Copy tevékenység a kötegelt feladat végrehajtása előtt, hogy az adatokat egy kompatibilis tárolóba süllyesztse.
  • A Batch-végpontfeladatok nem tárják fel a beágyazott mappákat, ezért nem működnek beágyazott mappastruktúrákkal. Ha az adatok több mappában vannak elosztva, figyelje meg, hogy el kell simítanod a struktúrát.
  • Győződjön meg arról, hogy az üzembe helyezés során megadott pontozószkript képes kezelni az adatokat, mivel az várhatóan be lesz adva a feladatba. Ha a modell MLflow, olvassa el az MLflow-modellek kötegelt üzembe helyezésekor támogatott fájltípusra vonatkozó korlátozást.

Adatkimenetek

  • Jelenleg csak a regisztrált Azure Machine Learning-adattárak támogatottak. Javasoljuk, hogy regisztrálja azt a tárfiókot, amelyet az Azure Data Factory használ adattárként az Azure Machine Learningben. Így vissza tud majd írni ugyanarra a tárfiókra, ahonnan olvas.
  • Kimenetek esetében csak az Azure Blob Storage-fiókok támogatottak. Az Azure Data Lake Storage Gen2 például nem támogatott kimenetként a kötegelt üzembe helyezési feladatokban. Ha az adatokat egy másik helyre/fogadóba kell kiadnia, használja az Azure Data Factory Copy tevékenység a kötegelt feladat végrehajtása után.

Következő lépések