Megosztás a következőn keresztül:


Adategységek importálása (előzetes verzió)

ÉRVÉNYES:Azure CLI ml-bővítmény v2 (aktuális)Python SDK azure-ai-ml v2 (aktuális)

Ebből a cikkből megtudhatja, hogyan importálhat adatokat az Azure Machine Learning platformba külső forrásokból. A sikeres adatimportálás automatikusan létrehoz és regisztrál egy Azure Machine Learning-adategységet az importálás során megadott névvel. Az Azure Machine Learning-adategységek a webböngésző könyvjelzőire (kedvencekre) hasonlítanak. Nem kell megjegyeznie a leggyakrabban használt adatokra mutató hosszú tárolási útvonalakat (URI-kat). Ehelyett létrehozhat egy adategységet, majd egy rövid névvel elérheti azt.

Az adatimportálás a forrásadatok és a metaadatok gyorsítótárát hozza létre a gyorsabb és megbízható adathozzáférés érdekében az Azure Machine Learning-betanítási feladatokban. Az adatgyorsítótár elkerüli a hálózati és kapcsolati korlátozásokat. A gyorsítótárazott adatok verziószáma a reprodukálhatóság támogatása érdekében történik. Ez verziószámozási képességeket biztosít az SQL Server-forrásokból importált adatokhoz. Emellett a gyorsítótárazott adatok adatsorokat is biztosítanak a naplózási feladatokhoz. Az adatimportálás ADF-t (Azure Data Factory-folyamatokat) használ a színfalak mögött, ami azt jelenti, hogy a felhasználók elkerülhetik az ADF-vel való összetett interakciókat. Az Azure Machine Learning a háttérben kezeli az ADF számítási erőforráskészlet méretének kezelését, a számítási erőforrások kiépítését és lebontását is, hogy a megfelelő párhuzamosítás meghatározásával optimalizálja az adatátvitelt.

Az átvitt adatok particionálása és biztonságos tárolása parquet-fájlokként történik az Azure Storage-ban. Ez gyorsabb feldolgozást tesz lehetővé a betanítás során. Az ADF számítási költségei csak az adatátvitelhez használt időt foglalják magukban. A tárolási költségek csak az adatok gyorsítótárazásához szükséges időt foglalják magukban, mivel a gyorsítótárazott adatok egy külső forrásból importált adatok másolatai. Az Azure Storage üzemelteti ezt a külső forrást.

A gyorsítótárazási funkció előzetes számítási és tárolási költségekkel jár. Azonban önmagáért fizet, és pénzt takaríthat meg, mivel csökkenti az ismétlődő betanítási számítási költségeket, szemben a külső forrásadatokkal való közvetlen kapcsolatokkal a betanítás során. Parquet-fájlokként gyorsítótárazza az adatokat, ami gyorsabb és megbízhatóbbá teszi a feladatok betanítását a nagyobb adathalmazok kapcsolati időtúllépései esetén. Ez kevesebb újrafuttatásához és kevesebb betanítási hibához vezet.

Adatokat importálhat az Amazon S3-ból, az Azure SQL-ből és a Snowflake-ből.

Fontos

Ez a funkció jelenleg nyilvános előzetes verzióban érhető el. Ez az előzetes verzió szolgáltatásszintű szerződés nélkül érhető el, és éles számítási feladatokhoz nem javasoljuk. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik.

További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.

Előfeltételek

Az adategységek létrehozásához és használatához a következőkre van szükség:

Feljegyzés

Sikeres adatimportáláshoz ellenőrizze, hogy telepítette-e az SDK legújabb Azure-ai-ml-csomagját (1.15.0-s vagy újabb verzió) és az ml-bővítményt (2.15.1-es vagy újabb verzió).

Ha régebbi SDK-csomaggal vagy CLI-bővítménnyel rendelkezik, távolítsa el a régit, és telepítse az újat a lapszakaszban látható kóddal. Kövesse az SDK és a parancssori felület utasításait az itt látható módon:

Kódverziók

az extension remove -n ml
az extension add -n ml --yes
az extension show -n ml #(the version value needs to be 2.15.1 or later)

Importálás külső adatbázisból mltable adategységként

Feljegyzés

A külső adatbázisok snowflake, Azure SQL stb. formátumúak lehetnek.

Az alábbi kódminták külső adatbázisokból importálhatnak adatokat. Az connection importálási műveletet kezelő eszköz határozza meg a külső adatbázis adatforrásának metaadatait. Ebben a mintában a kód adatokat importál egy Snowflake-erőforrásból. A kapcsolat egy Snowflake-forrásra mutat. Egy kis módosítással a kapcsolat egy Azure SQL-adatbázisforrásra és egy Azure SQL-adatbázisforrásra mutathat. Az importált objektum type egy külső adatbázis-forrásból a következő mltable: .

YAML Fájl <file-name>.ymllétrehozása:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# Datastore: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: mltable
name: <name>
source:
  type: database
  query: <query>
  connection: <connection>
path: <path>

Ezután futtassa a következő parancsot a parancssori felületen:

> az ml data import -f <file-name>.yml

Adatok importálása külső fájlrendszerből mappaadat-objektumként

Feljegyzés

Az Amazon S3-adaterőforrás külső fájlrendszer-erőforrásként is szolgálhat.

Az connection adatimportálási műveletet kezelő művelet határozza meg a külső adatforrás szempontjait. A kapcsolat egy Amazon S3-gyűjtőt határoz meg célként. A kapcsolat érvényes path értéket vár. Egy külső fájlrendszer-forrásból importált eszközértékek type értéke: uri_folder.

A következő kódminta adatokat importál egy Amazon S3-erőforrásból.

YAML Fájl <file-name>.ymllétrehozása:

$schema: http://azureml/sdk-2-0/DataImport.json
# Supported connections include:
# Connection: azureml:<workspace_connection_name>
# Supported paths include:
# path: azureml://datastores/<data_store_name>/paths/<my_path>/${{name}}


type: uri_folder
name: <name>
source:
  type: file_system
  path: <path_on_source>
  connection: <connection>
path: <path>

Ezután hajtsa végre ezt a parancsot a parancssori felületen:

> az ml data import -f <file-name>.yml

Külső adatforrások importálási állapotának ellenőrzése

Az adatimportálási művelet aszinkron művelet. Hosszú időt is igénybe vehet. Az importálási adatművelet parancssori felületen vagy SDK-val történő elküldése után az Azure Machine Learning szolgáltatásnak több percre lehet szüksége a külső adatforráshoz való csatlakozáshoz. Ezután a szolgáltatás elindítja az adatimportálást, és kezeli az adat-gyorsítótárazást és a regisztrációt. Az adatimportáláshoz szükséges idő a forrásadatkészlet méretétől is függ.

A következő példa a beküldött adatimportálási tevékenység állapotát adja vissza. A parancs vagy metódus bemenetként az "adategység" nevet használja az adatanyag állapotának meghatározásához.

> az ml data list-materialization-status --name <name>

Következő lépések