Kötegelt végpontok futtatása az Azure Data Factoryből

Cikk
06/13/2024

ÉRVÉNYES:Azure CLI ml-bővítmény v2 (aktuális)Python SDK azure-ai-ml v2 (aktuális)

A big data olyan szolgáltatást igényel, amely képes folyamatok vezénylésére és üzembe helyezésére a nyers adatok hatalmas tárolóinak végrehajtható üzleti elemzésekké való finomításához. Az Azure Data Factory egy felügyelt felhőszolgáltatás, amely ezekhez az összetett hibrid kinyerési-átalakító-betöltési (ETL), a extract-load-transform (ELT) és az adatintegrációs projektekhez készült.

Az Azure Data Factory lehetővé teszi olyan folyamatok létrehozását, amelyek több adatátalakítást vezényelhetnek, és egyetlen egységként kezelhetik őket. A Batch-végpontok kiválóan alkalmasak arra, hogy az ilyen feldolgozási munkafolyamatok egyik lépésévé váljanak. Ebben a példában megtudhatja, hogyan használhat kötegelt végpontokat az Azure Data Factory-tevékenységekben a webes meghívási tevékenységre és a REST API-ra támaszkodva.

Előfeltételek

Ez a példa feltételezi, hogy a modell megfelelően van üzembe helyezve kötegelt végpontként. Különösen az oktatóanyagban létrehozott szívállapot-osztályozót használjuk az MLflow-modellek kötegelt üzembe helyezések során.
Létrehozott és konfigurált Azure Data Factory-erőforrás. Ha még nem hozta létre a data factoryt, kövesse a gyorsútmutató lépéseit : Adat-előállító létrehozása az Azure Portal és az Azure Data Factory Studio használatával.
A létrehozás után keresse meg a data factoryt az Azure Portalon:
Válassza a Megnyitás az Azure Data Factory Studio megnyitása csempén a adatintegráció alkalmazás külön lapon való elindításához.

Hitelesítés kötegvégpontokon

Az Azure Data Factory a webes meghívási tevékenység használatával meghívhatja a kötegelt végpontok REST API-jait. A Batch-végpontok támogatják a Microsoft Entra-azonosítót az engedélyezéshez, ezért az API-knak küldött kérések megfelelő hitelesítést igényelnek.

Szolgáltatásnévvel vagy felügyelt identitással végezhet hitelesítést a Batch-végpontokon. Javasoljuk, hogy felügyelt identitást használjon, mivel ez leegyszerűsíti a titkos kódok használatát.

Felügyelt identitás használata
Szolgáltatásnév használata

Az Azure Data Factory által felügyelt identitással kommunikálhat a Batch-végpontokkal. Ebben az esetben csak azt kell meggyőződnie, hogy az Azure Data Factory-erőforrás felügyelt identitással lett üzembe helyezve.
Ha nem rendelkezik Azure Data Factory-erőforrással, vagy az már felügyelt identitás nélkül lett üzembe helyezve, a következő lépéseket követve hozza létre: Felügyelt identitás az Azure Data Factoryhez.

Figyelmeztetés

Figyelje meg, hogy az erőforrás-identitás üzembe helyezése után történő módosítása nem lehetséges az Azure Data Factoryben. Az erőforrás létrehozása után újra létre kell hoznia, ha módosítania kell annak identitását.
Az üzembe helyezést követően adjon hozzáférést a létrehozott erőforrás felügyelt identitásához az Azure Machine Learning-munkaterületen a Hozzáférés engedélyezése című témakörben leírtak szerint. Ebben a példában a szolgáltatásnévnek a következőre lesz szüksége:
1. A munkaterület engedélye kötegtelepítések olvasására és műveletek végrehajtására.
2. Olvasási/írási engedélyek az adattárakban.
3. Olvasási engedélyek az adatbevitelként megjelölt felhőbeli helyeken (tárfiókokban).

Hozzon létre egy szolgáltatásnevet az alkalmazások Microsoft Entra-azonosítóval való regisztrálása és szolgáltatásnév létrehozása című témakörben leírt lépések végrehajtásával.
Hozzon létre egy titkos kulcsot a hitelesítéshez a 3. lehetőség leírása szerint : Új ügyfélkód létrehozása.
Jegyezze fel a létrehozott titkos ügyfélkód értékét . Ez csak egyszer jelenik meg.
Jegyezze fel az client ID alkalmazás Áttekintés paneljén látható és tenant idazokat.
Adjon hozzáférést a munkaterülethez létrehozott szolgáltatásnévnek a Hozzáférés engedélyezése című témakörben leírtak szerint. Ebben a példában a szolgáltatásnévnek a következőre lesz szüksége:
1. A munkaterület engedélye kötegtelepítések olvasására és műveletek végrehajtására.
2. Olvasási/írási engedélyek az adattárakban.

A folyamat ismertetése

Létrehozunk egy folyamatot az Azure Data Factoryben, amely meghívhat egy adott kötegvégpontot bizonyos adatokon keresztül. A folyamat REST használatával kommunikál az Azure Machine Learning kötegelt végpontjaival. Ha többet szeretne tudni a kötegelt végpontok REST API-jának használatáról, olvassa el a Feladatok létrehozása és a kötegelt végpontok bemeneti adatainak létrehozása című cikket.

A folyamat a következőképpen fog kinézni:

Felügyelt identitás használata
Szolgáltatásnév használata

Diagram, amely a létrehozott folyamat magas szintű szerkezetét mutatja be.

A következő tevékenységekből áll:

Batch-Endpoint futtatása: Ez egy webes tevékenység, amely a batch-végpont URI-jával hívja meg. Átadja a bemeneti adatok URI-jának helyét, ahol az adatok találhatók, és a várt kimeneti fájlt.
Várjon a feladatra: Ez egy huroktevékenység, amely ellenőrzi a létrehozott feladat állapotát, és megvárja a befejezést, befejezettként vagy sikertelenként. Ez a tevékenység a következő tevékenységeket használja:
- Állapot ellenőrzése: Ez egy webes tevékenység, amely lekérdezi annak a feladat-erőforrásnak az állapotát, amelyet a Batch-Endpoint-tevékenység futtatása válaszként ad vissza.
- Várakozás: Ez egy várakozási tevékenység, amely szabályozza a feladat állapotának lekérdezési gyakoriságát. Az alapértelmezett érték 120 (2 perc).

A folyamathoz a következő paramétereket kell konfigurálni:

Paraméter	Leírás	Mintaérték
`endpoint_uri`	A végpont pontozási URI-ja	`https://<endpoint_name>.<region>.inference.ml.azure.com/jobs`
`poll_interval`	A feladat állapotának ellenőrzése előtt várandó másodpercek száma. Alapértelmezett érték: `120`.	`120`
`endpoint_input_uri`	A végpont bemeneti adatai. Több adatbeviteli típus is támogatott. Győződjön meg arról, hogy a feladat végrehajtásához használt kezelői identitás hozzáfér a mögöttes helyhez. Másik lehetőségként, ha adattárakat használ, győződjön meg arról, hogy a hitelesítő adatok ott vannak feltüntetve.	`azureml://datastores/.../paths/.../data/`
`endpoint_input_type`	A megadott bemeneti adatok típusa. Jelenleg a kötegvégpontok támogatják a mappákat (`UriFolder`) és a fájlokat (`UriFile`). Alapértelmezett érték: `UriFolder`.	`UriFolder`
`endpoint_output_uri`	A végpont kimeneti adatfájlja. A Machine Learning-munkaterülethez csatolt adattár kimeneti fájljának elérési útjának kell lennie. Más típusú URI-k nem támogatottak. Használhatja az alapértelmezett Azure Machine Learning-adattárat, melynek neve `workspaceblobstore`.	`azureml://datastores/workspaceblobstore/paths/batch/predictions.csv`

Diagram, amely a létrehozott folyamat magas szintű szerkezetét mutatja be.

A következő tevékenységekből áll:

Engedélyezés: Ez egy webes tevékenység, amely a kötegelt végpontok hitelesítése során létrehozott szolgáltatásnevet használja egy engedélyezési jogkivonat beszerzéséhez. Ez a jogkivonat a végpont későbbi meghívására szolgál.
Batch-Endpoint futtatása: Ez egy webes tevékenység, amely a batch-végpont URI-jával hívja meg. Átadja a bemeneti adatok URI-jának helyét, ahol az adatok találhatók, és a várt kimeneti fájlt.
Várjon a feladatra: Ez egy huroktevékenység, amely ellenőrzi a létrehozott feladat állapotát, és megvárja a befejezést, befejezettként vagy sikertelenként. Ez a tevékenység a következő tevékenységeket használja:
- Állapot ellenőrzése: Ez egy webes tevékenység, amely lekérdezi annak a feladat-erőforrásnak az állapotát, amelyet a Batch-Endpoint-tevékenység futtatása válaszként ad vissza.
- Várakozás: Ez egy várakozási tevékenység, amely szabályozza a feladat állapotának lekérdezési gyakoriságát. Az alapértelmezett érték 120 (2 perc).

A folyamathoz a következő paramétereket kell konfigurálni:

Paraméter	Leírás	Mintaérték
`tenant_id`	A végpont üzembe helyezésének bérlőazonosítója	`00000000-0000-0000-00000000`
`client_id`	A végpont meghívásához használt szolgáltatásnév ügyfélazonosítója	`00000000-0000-0000-00000000`
`client_secret`	A végpont meghívásához használt szolgáltatásnév ügyfélkódja	`ABCDEFGhijkLMNOPQRstUVwz`
`endpoint_uri`	A végpont pontozási URI-ja	`https://<endpoint_name>.<region>.inference.ml.azure.com/jobs`
`poll_interval`	A feladat állapotának ellenőrzése előtt várandó másodpercek száma. Alapértelmezett érték: `120`.	`120`
`endpoint_input_uri`	A végpont bemeneti adatai. Több adatbeviteli típus is támogatott. Győződjön meg arról, hogy a feladat végrehajtásához használt kezelői identitás hozzáfér a mögöttes helyhez. Másik lehetőségként, ha adattárakat használ, győződjön meg arról, hogy a hitelesítő adatok ott vannak feltüntetve.	`azureml://datastores/.../paths/.../data/`
`endpoint_input_type`	A megadott bemeneti adatok típusa. Jelenleg a kötegvégpontok támogatják a mappákat (`UriFolder`) és a fájlokat (`UriFile`). Alapértelmezett érték: `UriFolder`.	`UriFolder`
`endpoint_output_uri`	A végpont kimeneti adatfájlja. A Machine Learning-munkaterülethez csatolt adattár kimeneti fájljának elérési útjának kell lennie. Más típusú URI-k nem támogatottak. Használhatja az alapértelmezett Azure Machine Learning-adattárat, melynek neve `workspaceblobstore`.	`azureml://datastores/workspaceblobstore/paths/batch/predictions.csv`

Figyelmeztetés

Ne feledje, hogy endpoint_output_uri egy még nem létező fájl elérési útjának kell lennie. Ellenkező esetben a feladat meghiúsul azzal a hibával , hogy az elérési út már létezik.

Lépések

A folyamat meglévő Azure Data Factoryben való létrehozásához és kötegelt végpontok meghívásához kövesse az alábbi lépéseket:

Győződjön meg arról, hogy a kötegelt végpontot futtató számítás rendelkezik engedélyekkel az Azure Data Factory által bemenetként megadott adatok csatlakoztatásához. Figyelje meg, hogy a végpontot meghívó identitás (ebben az esetben az Azure Data Factory) továbbra is hozzáférést biztosít. Azonban ahhoz a számításhoz, ahol a kötegvégpont fut, engedéllyel kell rendelkeznie az Azure Data Factory által biztosított tárfiók csatlakoztatásához. További részletekért tekintse meg a Tárolási szolgáltatások elérése című témakört.
Nyissa meg az Azure Data Factory Studiót, és a Factory Resources alatt kattintson a pluszjelre.
Folyamatimportálás>kiválasztása folyamatsablonból
A rendszer kérni fogja, hogy válasszon ki egy zip fájlt. A következő sablont használja felügyelt identitások használata esetén, vagy szolgáltatásnév használata esetén az alábbi sablont.
A folyamat előnézete megjelenik a portálon. Kattintson a Sablon használata elemre.
A folyamat Run-BatchEndpoint néven jön létre.
Konfigurálja a használt kötegtelepítés paramétereit:

Felügyelt identitás használata
Szolgáltatásnév használata

Képernyőkép az eredményként kapott folyamathoz várt folyamatparaméterekről.

Figyelmeztetés

A feladat elküldése előtt győződjön meg arról, hogy a batch-végpont rendelkezik egy alapértelmezett üzembe helyezéssel. A létrehozott folyamat meghívja a végpontot, ezért létre kell hoznia és konfigurálnia kell egy alapértelmezett üzembe helyezést.

Tipp.

A legjobb újrafelhasználhatóság érdekében használja a létrehozott folyamatot sablonként, és hívja meg más Azure Data Factory-folyamatokból a Folyamat végrehajtása tevékenység használatával. Ebben az esetben ne konfigurálja a belső folyamat paramétereit, hanem adja át őket paraméterként a külső folyamatból, ahogyan az az alábbi képen látható:

Képernyőkép az eredményként kapott folyamathoz várt folyamatparaméterekről egy másik folyamatból való meghíváskor.

A folyamat készen áll a használatra.

Korlátozások

Az Azure Machine Learning-kötegek üzembe helyezésekor vegye figyelembe a következő korlátozásokat:

Adatbemenetek

Bemenetként csak Azure Machine Learning-adattárak vagy Azure Storage-fiókok (Azure Blob Storage, Azure Data Lake Storage Gen1, Azure Data Lake Storage Gen2) támogatottak. Ha a bemeneti adatok egy másik forrásban találhatóak, használja az Azure Data Factory Copy tevékenység a kötegelt feladat végrehajtása előtt, hogy az adatokat egy kompatibilis tárolóba süllyesztse.
A Batch-végpontfeladatok nem tárják fel a beágyazott mappákat, ezért nem működnek beágyazott mappastruktúrákkal. Ha az adatok több mappában vannak elosztva, figyelje meg, hogy el kell simítanod a struktúrát.
Győződjön meg arról, hogy az üzembe helyezés során megadott pontozószkript képes kezelni az adatokat, mivel az várhatóan be lesz adva a feladatba. Ha a modell MLflow, olvassa el az MLflow-modellek kötegelt üzembe helyezésekor támogatott fájltípusra vonatkozó korlátozást.

Adatkimenetek

Jelenleg csak a regisztrált Azure Machine Learning-adattárak támogatottak. Javasoljuk, hogy regisztrálja azt a tárfiókot, amelyet az Azure Data Factory használ adattárként az Azure Machine Learningben. Így vissza tud majd írni ugyanarra a tárfiókra, ahonnan olvas.
Kimenetek esetében csak az Azure Blob Storage-fiókok támogatottak. Az Azure Data Lake Storage Gen2 például nem támogatott kimenetként a kötegelt üzembe helyezési feladatokban. Ha az adatokat egy másik helyre/fogadóba kell kiadnia, használja az Azure Data Factory Copy tevékenység a kötegelt feladat végrehajtása után.

Megosztás a következőn keresztül: