Adatok az Azure Machine Learning v1-ben

Cikk
10/16/2024

A KÖVETKEZŐRE VONATKOZIK: Azure CLI ml-bővítmény 1-es verzió

A KÖVETKEZŐKRE VONATKOZIK: Python SDK azureml v1

Az Azure Machine Learning megkönnyíti a felhőbeli adatokhoz való csatlakozást. Absztrakciós réteget biztosít a mögöttes tárolási szolgáltatáson keresztül, így biztonságosan elérheti és kezelheti az adatokat anélkül, hogy a tártípushoz tartozó kódot kellene írnia. Az Azure Machine Learning az alábbi adatképességeket is biztosítja:

Együttműködés a Pandas és a Spark DataFrames szolgáltatással
Az adatsorok verziószámozása és nyomon követése
Adatok címkézése
Adateltérések monitorozása

Adat-munkafolyamat

Az adatok felhőalapú tárolási megoldásban való használatához javasoljuk ezt az adatkézbesítési munkafolyamatot. A munkafolyamat feltételezi, hogy rendelkezik Azure Storage-fiókkal, és egy Azure felhőalapú tárolási szolgáltatásban lévő adatokkal.

Azure Machine Learning-adattár létrehozása az Azure Storage-beli kapcsolati adatok tárolásához
Az adattárból hozzon létre egy Azure Machine Learning-adatkészletet , amely egy adott fájlra vagy fájlra mutat a mögöttes tárolóban
Ha ezt az adatkészletet szeretné használni a gépi tanulási kísérletben, akkor
- Az adathalmaz csatlakoztatása a kísérlet számítási céljához a modell betanításához
  
  VAGY
- Az adathalmazt közvetlenül az Azure Machine Learning-megoldásokban használhatja fel – például automatizált gépi tanulási (automatizált gépi tanulási) kísérletfuttatásokat, gépi tanulási folyamatokat vagy az Azure Machine Learning-tervezőt.
Adathalmaz-figyelők létrehozása a modell kimeneti adatkészletéhez az adateltolódás észleléséhez
Az észlelt adateltolódás esetén frissítse a bemeneti adatkészletet, és ennek megfelelően tanítsa be újra a modellt

Ez a képernyőkép az ajánlott munkafolyamatot mutatja be:

Csatlakozás a tárolóhoz adattárakkal

Az Azure Machine Learning-adattárak biztonságosan üzemeltetik az adattárolási kapcsolat adatait az Azure-ban, így nem kell ezeket az adatokat a szkriptekben elhelyeznie. A tárfiókhoz való csatlakozásról és a mögöttes tárolási szolgáltatásban való adathozzáférésről további információt a Regisztráció és egy adattár létrehozása című témakörben talál.

Ezek a támogatott azure-beli felhőalapú tárolási szolgáltatások adattárként regisztrálhatnak:

Azure-blobtároló
Azure-fájlmegosztás
Azure Data Lake
Azure Data Lake Gen2
Azure SQL Database
Azure Database for PostgreSQL
Databricks fájlrendszer
Azure Database for MySQL

Tipp.

A tárolási szolgáltatások eléréséhez létrehozhat adattárakat hitelesítő adatokon alapuló hitelesítéssel, például szolgáltatásnévvel vagy közös hozzáférésű jogosultságkóddal (SAS- jogkivonattal). A munkaterület olvasói hozzáféréssel rendelkező felhasználói hozzáférhetnek ezekhez a hitelesítő adatokhoz.

Ha ez aggodalomra ad okot, hozzon létre egy olyan adattárat, amely identitásalapú adathozzáférést használ a tárolási szolgáltatásokhoz való kapcsolatokról.

Referenciaadatok a tárolóban adatkészletekkel

Az Azure Machine Learning-adathalmazok nem az adatok másolatai. Maga az adathalmaz létrehozása a társzolgáltatásban lévő adatokra mutató hivatkozást, valamint a metaadatok másolatát hozza létre.

Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,

Nincs extra tárolási költség
Ne kockáztasson véletlen módosításokat az eredeti adatforrások esetében
Az ml-munkafolyamat teljesítményének javítása

A tárolóban lévő adatok kezeléséhez hozzon létre egy adatkészletet, amely egy hasznos objektumba csomagolja az adatokat a gépi tanulási feladatokhoz. Regisztrálja az adathalmazt a munkaterületen, hogy adatbetöltési összetettségek nélkül ossza meg és használja újra a különböző kísérletekben.

Adatkészleteket helyi fájlokból, nyilvános URL-címekből, Azure Open Datasetsből vagy Azure Storage-szolgáltatásokból hozhat létre adattárakon keresztül.

Kétféle adathalmaz létezik:

A FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken. Ha az adatok már kitisztultak, és készen állnak a betanítási kísérletekre, letöltheti vagy csatlakoztathatja a FileDatasets által hivatkozott fájlokat a számítási célhoz
A TabularDataset táblázatos formátumban jeleníti meg az adatokat a megadott fájl vagy fájllista elemzésével. A TabularDataset egy pandasba vagy Spark DataFrame-be tölthető be további manipuláció és tisztítás céljából. A TabularDatasetFactory osztályban megtekintheti az adatformátumok teljes listáját, amelyekből táblázatos adathalmazokat hozhat létre.

Ezek az erőforrások további információt nyújtanak az adathalmaz képességeiről:

Az adatkészletek leállásának verziója és nyomon követése
Az adathalmaz monitorozása az adateltolódások észlelésének segítése érdekében

Az adatok kezelése

Adathalmazokkal gépi tanulási feladatokat végezhet az Azure Machine Learning funkcióival való zökkenőmentes integrációval.

Adatfeliratozási projekt létrehozása
Gépi tanulási modellek betanítása:
Adatkészletek elérése kötegelt következtetéssel történő pontozáshoz a gépi tanulási folyamatokban
Adathalmaz-figyelő beállítása adateltolódás-észleléshez

Adatok címkézése adatfeliratozási projektekkel

A gépi tanulási projektekben nagy mennyiségű adat címkézése fejfájást okozhat. A számítógépes látás összetevőt, például a képbesorolást vagy az objektumészlelést magában foglaló projektekhez gyakran több ezer képre és megfelelő címkékre van szükség.

Az Azure Machine Learning központi helyet biztosít a címkézési projektek létrehozásához, kezeléséhez és monitorozásához. A címkézési projektek segítenek összehangolni az adatokat, a címkéket és a csapattagokat, hogy hatékonyabban kezelhesse a címkézési feladatokat. A jelenleg támogatott feladatok magukban foglalják a képbesorolást, akár többcímkét, akár többosztályost, és határolókereteket használó objektumazonosítást.

Képfeliratozási projektet vagy szövegfeliratozási projektet hozhat létre, és adatkészletet ad ki a gépi tanulási kísérletekben való használatra.

Modellteljesítmény monitorozása adateltolódással

A gépi tanulás kontextusában az adateltolódás magában foglalja a modell bemeneti adatainak változását, amely a modell teljesítménycsökkenéséhez vezet. Ez a fő oka annak, hogy a modell pontossága idővel csökken, és az adatelsodrások monitorozása segít észlelni a modell teljesítményével kapcsolatos problémákat.

További információt az Adathalmaz-figyelő létrehozása című témakörben talál, ahol megtudhatja, hogyan észlelheti és figyelmeztetheti az adathalmaz új adatainak adatelsodrésére.

Következő lépések

Adatkészlet létrehozása az Azure Machine Learning Studióban vagy a Python SDK-val
Adathalmazok betanítási példáinak kipróbálása mintajegyzetfüzeteinkkel

Megosztás a következőn keresztül: