Adategységek importálása (előzetes verzió)

Cikk
09/02/2024

ÉRVÉNYES:Azure CLI ml-bővítmény v2 (aktuális)Python SDK azure-ai-ml v2 (aktuális)

Ebből a cikkből megtudhatja, hogyan importálhat adatokat az Azure Machine Learning platformba külső forrásokból. A sikeres adatimportálás automatikusan létrehoz és regisztrál egy Azure Machine Learning-adategységet az importálás során megadott névvel. Az Azure Machine Learning-adategységek a webböngésző könyvjelzőire (kedvencekre) hasonlítanak. Nem kell megjegyeznie a leggyakrabban használt adatokra mutató hosszú tárolási útvonalakat (URI-kat). Ehelyett létrehozhat egy adategységet, majd egy rövid névvel elérheti azt.

Az adatimportálás a forrásadatok és a metaadatok gyorsítótárát hozza létre a gyorsabb és megbízható adathozzáférés érdekében az Azure Machine Learning-betanítási feladatokban. Az adatgyorsítótár elkerüli a hálózati és kapcsolati korlátozásokat. A gyorsítótárazott adatok verziószáma a reprodukálhatóság támogatása érdekében történik. Ez verziószámozási képességeket biztosít az SQL Server-forrásokból importált adatokhoz. Emellett a gyorsítótárazott adatok adatsorokat is biztosítanak a naplózási feladatokhoz. Az adatimportálás ADF-t (Azure Data Factory-folyamatokat) használ a színfalak mögött, ami azt jelenti, hogy a felhasználók elkerülhetik az ADF-vel való összetett interakciókat. Az Azure Machine Learning a háttérben kezeli az ADF számítási erőforráskészlet méretének kezelését, a számítási erőforrások kiépítését és lebontását is, hogy a megfelelő párhuzamosítás meghatározásával optimalizálja az adatátvitelt.

Az átvitt adatok particionálása és biztonságos tárolása parquet-fájlokként történik az Azure Storage-ban. Ez gyorsabb feldolgozást tesz lehetővé a betanítás során. Az ADF számítási költségei csak az adatátvitelhez használt időt foglalják magukban. A tárolási költségek csak az adatok gyorsítótárazásához szükséges időt foglalják magukban, mivel a gyorsítótárazott adatok egy külső forrásból importált adatok másolatai. Az Azure Storage üzemelteti ezt a külső forrást.

A gyorsítótárazási funkció előzetes számítási és tárolási költségekkel jár. Azonban önmagáért fizet, és pénzt takaríthat meg, mivel csökkenti az ismétlődő betanítási számítási költségeket, szemben a külső forrásadatokkal való közvetlen kapcsolatokkal a betanítás során. Parquet-fájlokként gyorsítótárazza az adatokat, ami gyorsabb és megbízhatóbbá teszi a feladatok betanítását a nagyobb adathalmazok kapcsolati időtúllépései esetén. Ez kevesebb újrafuttatásához és kevesebb betanítási hibához vezet.

Adatokat importálhat az Amazon S3-ból, az Azure SQL-ből és a Snowflake-ből.

Fontos

Ez a funkció jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik.

További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Előfeltételek

Az adategységek létrehozásához és használatához a következőkre van szükség:

Azure-előfizetés. Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot. Próbálja ki az Azure Machine Learning ingyenes vagy fizetős verzióját.
Egy Azure Machine Learning-munkaterület. Munkaterületi erőforrások létrehozása.
Az Azure Machine Learning CLI/SDK telepítve van.
Munkaterület-kapcsolatok létrehozva

Feljegyzés

Sikeres adatimportáláshoz ellenőrizze, hogy telepítette-e az SDK legújabb Azure-ai-ml-csomagját (1.15.0-s vagy újabb verzió) és az ml-bővítményt (2.15.1-es vagy újabb verzió).

Ha régebbi SDK-csomaggal vagy CLI-bővítménnyel rendelkezik, távolítsa el a régit, és telepítse az újat a lapszakaszban látható kóddal. Kövesse az SDK és a parancssori felület utasításait az itt látható módon:

Kódverziók

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

pip install azure-ai-ml
pip show azure-ai-ml #(the version value needs to be 1.15.0 or later)

Importálás külső adatbázisból mltable adategységként

Feljegyzés

A külső adatbázisok snowflake, Azure SQL stb. formátumúak lehetnek.

Az alábbi kódminták külső adatbázisokból importálhatnak adatokat. Az connection importálási műveletet kezelő eszköz határozza meg a külső adatbázis adatforrásának metaadatait. Ebben a mintában a kód adatokat importál egy Snowflake-erőforrásból. A kapcsolat egy Snowflake-forrásra mutat. Egy kis módosítással a kapcsolat egy Azure SQL-adatbázisforrásra és egy Azure SQL-adatbázisforrásra mutathat. Az importált objektum type egy külső adatbázis-forrásból a következő mltable: .

YAML Fájl <file-name>.ymllétrehozása:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Ezután futtassa a következő parancsot a parancssori felületen:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import Database
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=Database(connection="<connection>", query="<query>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Feljegyzés

Az itt látható példa egy Snowflake-adatbázis folyamatát ismerteti. Ez a folyamat azonban más külső adatbázis-formátumokat is lefed, például az Azure SQL-t stb.

Lépjen az Azure Machine Learning Studióba.
A bal oldali navigációs Eszközök területén válassza az Adatok lehetőséget. Ezután válassza az Adatimportálás lapot. Ezután válassza a Létrehozás lehetőséget a képernyőképen látható módon:
Az Adatforrás képernyőn válassza a Snowflake lehetőséget, majd válassza a Tovább gombot, ahogyan az a képernyőképen látható:
Az Adattípus képernyőn töltse ki az értékeket. A Type (Type ) érték alapértelmezés szerint tábla (mltable). Ezután válassza a Tovább gombot, ahogy a képernyőképen látható:
Az Adatimportálás létrehozása képernyőn töltse ki az értékeket, és válassza a Tovább gombot az alábbi képernyőképen látható módon:
Töltse ki az értékeket az Adattár kiválasztása a kimeneti képernyőn, majd válassza a Tovább gombot, ahogyan az a képernyőképen látható. A munkaterület által felügyelt adattár alapértelmezés szerint ki van választva; az elérési utat a rendszer automatikusan hozzárendeli a rugalmas adattár kiválasztásakor. Ha a munkaterület által felügyelt adattárat választja, megjelenik az Automatikus törlés beállítás legördülő listája. Alapértelmezés szerint 30 napos adattörlési időkeretet kínál, és az importált adategységek kezelésének módja ismerteti ennek az értéknek a módosítását.

Feljegyzés

Saját adattár kiválasztásához válassza az Egyéb adattárak lehetőséget. Ebben az esetben ki kell választania az adatgyorsítótár helyének elérési útját.

Ütemezést is hozzáadhat. Válassza az Ütemezés hozzáadása lehetőséget a képernyőképen látható módon:

Megnyílik egy új panel, ahol megadhatja az ismétlődési ütemezést vagy a Cron-ütemezést. Ez a képernyőkép az ismétlődési ütemezés paneljét mutatja be:

Név: a munkaterületen belüli ütemezés egyedi azonosítója.
Leírás: az ütemezés leírása.
Trigger: az ütemezés ismétlődési mintája, amely a következő tulajdonságokat tartalmazza.
- Időzóna: az eseményindító időszámítása ezen az időzónán alapul; (UTC) Alapértelmezés szerint koordinált univerzális idő.
- Ismétlődés vagy Cron-kifejezés: válassza az ismétlődés lehetőséget az ismétlődő minta megadásához. Az Ismétlődés csoportban megadhatja az ismétlődés gyakoriságát percek, órák, napok, hetek vagy hónapok szerint.
- Kezdés: az ütemezés először ezen a napon válik aktívvá. Alapértelmezés szerint ennek az ütemezésnek a létrehozási dátuma.
- Befejezés: az ütemezés a dátum után inaktívvá válik. Alapértelmezés szerint NINCS, ami azt jelenti, hogy az ütemezés mindig aktív lesz, amíg manuálisan nem tiltja le.
- Címkék: a kijelölt ütemezési címkék.

Feljegyzés

A Start az ütemezés időzónájával adja meg a kezdési dátumot és az időpontot. Ha a kezdés nincs megadva, a kezdési idő megegyezik az ütemezés létrehozási időpontjával. A korábbi kezdési időpontban az első feladat a következő számított futási időpontban fut.

A következő képernyőképen a folyamat utolsó képernyője látható. Tekintse át a lehetőségeket, és válassza a Létrehozás lehetőséget. Ezen a képernyőn és a folyamat többi képernyőjén a Vissza gombra kattintva válthat a korábbi képernyőkre az értékek választásának módosításához.

Ez a képernyőkép a Cron-ütemezés paneljét mutatja be:

Név: a munkaterületen belüli ütemezés egyedi azonosítója.
Leírás: az ütemezés leírása.

Trigger: az ütemezés ismétlődési mintája, amely a következő tulajdonságokat tartalmazza.

Időzóna: az eseményindító időszámítása ezen az időzónán alapul; (UTC) Alapértelmezés szerint koordinált univerzális idő.
Ismétlődés vagy cron kifejezés: válassza a cron kifejezést a cron részleteinek megadásához.

(Kötelező) expression egy standard crontab-kifejezés használatával fejezi ki az ismétlődő ütemezést. Egyetlen kifejezés öt szóközzel tagolt mezőből áll:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Egyetlen helyettesítő karakter (*), amely a mező összes értékét lefedi. Az A *, napokban a hónap minden napját jelenti (amely hónaptól és évtől függően változik).
A expression: "15 16 * * 1" fenti mintában szereplő érték minden hétfőn 16:15-kor lesz látható.

A következő táblázat az egyes mezők érvényes értékeit sorolja fel:

Mező	Tartomány	Megjegyzés
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Nem támogatott. Az érték figyelmen kívül lesz hagyva, és a rendszer a következőképpen kezeli.`*`
`MONTHS`	-	Nem támogatott. Az érték figyelmen kívül lesz hagyva, és a rendszer a következőképpen kezeli.`*`
`DAYS-OF-WEEK`	0-6	A nulla (0) vasárnapot jelent. A napok neve is elfogadott.

A Crontab-kifejezésekről további információt a GitHub Crontab Expression wikijében talál.

Fontos

DAYS és MONTH nem támogatottak. Ha ezen értékek egyikét adja át, a rendszer figyelmen kívül hagyja, és a rendszer a következőképpen kezeli *.

Kezdés: az ütemezés először ezen a napon válik aktívvá. Alapértelmezés szerint ennek az ütemezésnek a létrehozási dátuma.
Befejezés: az ütemezés a dátum után inaktívvá válik. Alapértelmezés szerint NINCS, ami azt jelenti, hogy az ütemezés mindig aktív lesz, amíg manuálisan nem tiltja le.
Címkék: a kijelölt ütemezési címkék.

Feljegyzés

Adatok importálása külső fájlrendszerből mappaadat-objektumként

Feljegyzés

Az Amazon S3-adaterőforrás külső fájlrendszer-erőforrásként is szolgálhat.

Az connection adatimportálási műveletet kezelő művelet határozza meg a külső adatforrás szempontjait. A kapcsolat egy Amazon S3-gyűjtőt határoz meg célként. A kapcsolat érvényes path értéket vár. Egy külső fájlrendszer-forrásból importált eszközértékek type értéke: uri_folder.

A következő kódminta adatokat importál egy Amazon S3-erőforrásból.

YAML Fájl <file-name>.ymllétrehozása:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Ezután hajtsa végre ezt a parancsot a parancssori felületen:

> az ml data import -f <file-name>.yml


from azure.ai.ml.entities import DataImport
from azure.ai.ml.data_transfer import FileSystem
from azure.ai.ml import MLClient

# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}

ml_client = MLClient.from_config()

data_import = DataImport(
    name="<name>",
    source=FileSystem(connection="<connection>", path="<path_on_source>"),
    path="<path>"
    )
ml_client.data.import_data(data_import=data_import)

Lépjen az Azure Machine Learning Studióba.
A bal oldali navigációs Eszközök területén válassza az Adatok lehetőséget. Ezután válassza az Adatimportálás lapot. Ezután válassza a Létrehozás lehetőséget a képernyőképen látható módon:
Az Adatforrás képernyőn válassza az S3 lehetőséget, majd válassza a Tovább gombot, ahogyan az a képernyőképen látható:
Az Adattípus képernyőn töltse ki az értékeket. A Típus érték alapértelmezés szerint mappa (uri_folder) lesz. Ezután válassza a Tovább gombot, ahogy a képernyőképen látható:
Az Adatimportálás létrehozása képernyőn töltse ki az értékeket, és válassza a Tovább gombot az alábbi képernyőképen látható módon:
Töltse ki az értékeket az Adattár kiválasztása a kimeneti képernyőn, majd válassza a Tovább gombot, ahogyan az a képernyőképen látható. A munkaterület által felügyelt adattár alapértelmezés szerint ki van választva; a rendszer automatikusan hozzárendeli az elérési utat a felügyelt adattár kiválasztásakor. Ha a munkaterület által felügyelt adattárat választja, megjelenik az Automatikus törlés beállítás legördülő listája. Alapértelmezés szerint 30 napos adattörlési időkeretet kínál, és az importált adategységek kezelésének módja ismerteti ennek az értéknek a módosítását.
Ütemezést is hozzáadhat. Válassza az Ütemezés hozzáadása lehetőséget a képernyőképen látható módon:
Megnyílik egy új panel, ahol megadhatja az ismétlődési ütemezést vagy a Cron-ütemezést. Ez a képernyőkép az ismétlődési ütemezés paneljét mutatja be:
- Név: a munkaterületen belüli ütemezés egyedi azonosítója.
- Leírás: az ütemezés leírása.
- Trigger: az ütemezés ismétlődési mintája, amely a következő tulajdonságokat tartalmazza.
  - Időzóna: az eseményindító időszámítása ezen az időzónán alapul; (UTC) Alapértelmezés szerint koordinált univerzális idő.
  - Ismétlődés vagy Cron-kifejezés: válassza az ismétlődés lehetőséget az ismétlődő minta megadásához. Az Ismétlődés csoportban megadhatja az ismétlődés gyakoriságát percek, órák, napok, hetek vagy hónapok szerint.
  - Kezdés: az ütemezés először ezen a napon válik aktívvá. Alapértelmezés szerint ennek az ütemezésnek a létrehozási dátuma.
  - Befejezés: az ütemezés a dátum után inaktívvá válik. Alapértelmezés szerint NINCS, ami azt jelenti, hogy az ütemezés mindig aktív lesz, amíg manuálisan nem tiltja le.
  - Címkék: a kijelölt ütemezési címkék.
Feljegyzés

A Start az ütemezés időzónájával adja meg a kezdési dátumot és az időpontot. Ha a kezdés nincs megadva, a kezdési idő megegyezik az ütemezés létrehozási időpontjával. A korábbi kezdési időpontban az első feladat a következő számított futási időpontban fut.
A következő képernyőképen látható módon tekintse át a folyamat utolsó képernyőjén látható lehetőségeket, és válassza a Létrehozás lehetőséget. Ezen a képernyőn és a folyamat többi képernyőjén válassza a Vissza lehetőséget a korábbi képernyőkre való áttéréshez, ha módosítani szeretné az értékek választását.

Ez a képernyőkép a Cron-ütemezés paneljét mutatja be:

Név: a munkaterületen belüli ütemezés egyedi azonosítója.
Leírás: az ütemezés leírása.

Trigger: az ütemezés ismétlődési mintája, amely a következő tulajdonságokat tartalmazza.

Időzóna: az eseményindító időszámítása ezen az időzónán alapul; (UTC) Alapértelmezés szerint koordinált univerzális idő.
Ismétlődés vagy cron kifejezés: válassza a cron kifejezést a cron részleteinek megadásához.

(Kötelező) expression egy standard crontab-kifejezés használatával fejezi ki az ismétlődő ütemezést. Egyetlen kifejezés öt szóközzel tagolt mezőből áll:

MINUTES HOURS DAYS MONTHS DAYS-OF-WEEK

Egyetlen helyettesítő karakter (*), amely a mező összes értékét lefedi. Az A *, napokban a hónap minden napját jelenti (amely hónaptól és évtől függően változik).
A expression: "15 16 * * 1" fenti mintában szereplő érték minden hétfőn 16:15-kor lesz látható.

A következő táblázat az egyes mezők érvényes értékeit sorolja fel:

Mező	Tartomány	Megjegyzés
`MINUTES`	0-59	-
`HOURS`	0-23	-
`DAYS`	-	Nem támogatott. Az érték figyelmen kívül lesz hagyva, és a rendszer a következőképpen kezeli.`*`
`MONTHS`	-	Nem támogatott. Az érték figyelmen kívül lesz hagyva, és a rendszer a következőképpen kezeli.`*`
`DAYS-OF-WEEK`	0-6	A nulla (0) vasárnapot jelent. A napok neve is elfogadott.

A Crontab-kifejezésekről további információt a GitHub Crontab Expression wikijében talál.

Fontos

DAYS és MONTH nem támogatottak. Ha ezen értékek egyikét adja át, a rendszer figyelmen kívül hagyja, és a rendszer a következőképpen kezeli *.

Kezdés: az ütemezés először ezen a napon válik aktívvá. Alapértelmezés szerint ennek az ütemezésnek a létrehozási dátuma.
Befejezés: az ütemezés a dátum után inaktívvá válik. Alapértelmezés szerint NINCS, ami azt jelenti, hogy az ütemezés mindig aktív lesz, amíg manuálisan nem tiltja le.
Címkék: a kijelölt ütemezési címkék.

Feljegyzés

Külső adatforrások importálási állapotának ellenőrzése

Az adatimportálási művelet aszinkron művelet. Hosszú időt is igénybe vehet. Az importálási adatművelet parancssori felületen vagy SDK-val történő elküldése után az Azure Machine Learning szolgáltatásnak több percre lehet szüksége a külső adatforráshoz való csatlakozáshoz. Ezután a szolgáltatás elindítja az adatimportálást, és kezeli az adat-gyorsítótárazást és a regisztrációt. Az adatimportáláshoz szükséges idő a forrásadatkészlet méretétől is függ.

A következő példa a beküldött adatimportálási tevékenység állapotát adja vissza. A parancs vagy metódus bemenetként az "adategység" nevet használja az adatanyag állapotának meghatározásához.

> az ml data list-materialization-status --name <name>

from azure.ai.ml.entities import DataImport
from azure.ai.ml import MLClient

ml_client = MLClient.from_config()

ml_client.data.show_materialization_status(name="<name>")

Megosztás a következőn keresztül:

Adategységek importálása (előzetes verzió)

Előfeltételek

Kódverziók

Importálás külső adatbázisból mltable adategységként

Adatok importálása külső fájlrendszerből mappaadat-objektumként

Külső adatforrások importálási állapotának ellenőrzése

Következő lépések

Visszajelzés

További források