Adatok az Azure Machine Learning v1-ben
A KÖVETKEZŐRE VONATKOZIK: Azure CLI ml-bővítmény 1-es verzió
A KÖVETKEZŐKRE VONATKOZIK: Python SDK azureml v1
Az Azure Machine Learning megkönnyíti a felhőbeli adatokhoz való csatlakozást. Absztrakciós réteget biztosít a mögöttes tárolási szolgáltatáson keresztül, így biztonságosan elérheti és kezelheti az adatokat anélkül, hogy a tártípushoz tartozó kódot kellene írnia. Az Azure Machine Learning az alábbi adatképességeket is biztosítja:
- Együttműködés a Pandas és a Spark DataFrames szolgáltatással
- Az adatsorok verziószámozása és nyomon követése
- Adatok címkézése
- Adateltérések monitorozása
Adat-munkafolyamat
Az adatok felhőalapú tárolási megoldásban való használatához javasoljuk ezt az adatkézbesítési munkafolyamatot. A munkafolyamat feltételezi, hogy rendelkezik Azure Storage-fiókkal, és egy Azure felhőalapú tárolási szolgáltatásban lévő adatokkal.
Azure Machine Learning-adattár létrehozása az Azure Storage-beli kapcsolati adatok tárolásához
Az adattárból hozzon létre egy Azure Machine Learning-adatkészletet , amely egy adott fájlra vagy fájlra mutat a mögöttes tárolóban
Ha ezt az adatkészletet szeretné használni a gépi tanulási kísérletben, akkor
Az adathalmaz csatlakoztatása a kísérlet számítási céljához a modell betanításához
VAGY
Az adathalmazt közvetlenül az Azure Machine Learning-megoldásokban használhatja fel – például automatizált gépi tanulási (automatizált gépi tanulási) kísérletfuttatásokat, gépi tanulási folyamatokat vagy az Azure Machine Learning-tervezőt.
Adathalmaz-figyelők létrehozása a modell kimeneti adatkészletéhez az adateltolódás észleléséhez
Az észlelt adateltolódás esetén frissítse a bemeneti adatkészletet, és ennek megfelelően tanítsa be újra a modellt
Ez a képernyőkép az ajánlott munkafolyamatot mutatja be:
Csatlakozás a tárolóhoz adattárakkal
Az Azure Machine Learning-adattárak biztonságosan üzemeltetik az adattárolási kapcsolat adatait az Azure-ban, így nem kell ezeket az adatokat a szkriptekben elhelyeznie. A tárfiókhoz való csatlakozásról és a mögöttes tárolási szolgáltatásban való adathozzáférésről további információt a Regisztráció és egy adattár létrehozása című témakörben talál.
Ezek a támogatott azure-beli felhőalapú tárolási szolgáltatások adattárként regisztrálhatnak:
- Azure-blobtároló
- Azure-fájlmegosztás
- Azure Data Lake
- Azure Data Lake Gen2
- Azure SQL Database
- Azure Database for PostgreSQL
- Databricks fájlrendszer
- Azure Database for MySQL
Tipp.
A tárolási szolgáltatások eléréséhez létrehozhat adattárakat hitelesítő adatokon alapuló hitelesítéssel, például szolgáltatásnévvel vagy közös hozzáférésű jogosultságkóddal (SAS- jogkivonattal). A munkaterület olvasói hozzáféréssel rendelkező felhasználói hozzáférhetnek ezekhez a hitelesítő adatokhoz.
Ha ez aggodalomra ad okot, hozzon létre egy olyan adattárat, amely identitásalapú adathozzáférést használ a tárolási szolgáltatásokhoz való kapcsolatokról.
Referenciaadatok a tárolóban adatkészletekkel
Az Azure Machine Learning-adathalmazok nem az adatok másolatai. Maga az adathalmaz létrehozása a társzolgáltatásban lévő adatokra mutató hivatkozást, valamint a metaadatok másolatát hozza létre.
Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,
- Nincs extra tárolási költség
- Ne kockáztasson véletlen módosításokat az eredeti adatforrások esetében
- Az ml-munkafolyamat teljesítményének javítása
A tárolóban lévő adatok kezeléséhez hozzon létre egy adatkészletet, amely egy hasznos objektumba csomagolja az adatokat a gépi tanulási feladatokhoz. Regisztrálja az adathalmazt a munkaterületen, hogy adatbetöltési összetettségek nélkül ossza meg és használja újra a különböző kísérletekben.
Adatkészleteket helyi fájlokból, nyilvános URL-címekből, Azure Open Datasetsből vagy Azure Storage-szolgáltatásokból hozhat létre adattárakon keresztül.
Kétféle adathalmaz létezik:
A FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken. Ha az adatok már kitisztultak, és készen állnak a betanítási kísérletekre, letöltheti vagy csatlakoztathatja a FileDatasets által hivatkozott fájlokat a számítási célhoz
A TabularDataset táblázatos formátumban jeleníti meg az adatokat a megadott fájl vagy fájllista elemzésével. A TabularDataset egy pandasba vagy Spark DataFrame-be tölthető be további manipuláció és tisztítás céljából. A TabularDatasetFactory osztályban megtekintheti az adatformátumok teljes listáját, amelyekből táblázatos adathalmazokat hozhat létre.
Ezek az erőforrások további információt nyújtanak az adathalmaz képességeiről:
- Az adatkészletek leállásának verziója és nyomon követése
- Az adathalmaz monitorozása az adateltolódások észlelésének segítése érdekében
Az adatok kezelése
Adathalmazokkal gépi tanulási feladatokat végezhet az Azure Machine Learning funkcióival való zökkenőmentes integrációval.
- Adatfeliratozási projekt létrehozása
- Gépi tanulási modellek betanítása:
- Adatkészletek elérése kötegelt következtetéssel történő pontozáshoz a gépi tanulási folyamatokban
- Adathalmaz-figyelő beállítása adateltolódás-észleléshez
Adatok címkézése adatfeliratozási projektekkel
A gépi tanulási projektekben nagy mennyiségű adat címkézése fejfájást okozhat. A számítógépes látás összetevőt, például a képbesorolást vagy az objektumészlelést magában foglaló projektekhez gyakran több ezer képre és megfelelő címkékre van szükség.
Az Azure Machine Learning központi helyet biztosít a címkézési projektek létrehozásához, kezeléséhez és monitorozásához. A címkézési projektek segítenek összehangolni az adatokat, a címkéket és a csapattagokat, hogy hatékonyabban kezelhesse a címkézési feladatokat. A jelenleg támogatott feladatok magukban foglalják a képbesorolást, akár többcímkét, akár többosztályost, és határolókereteket használó objektumazonosítást.
Képfeliratozási projektet vagy szövegfeliratozási projektet hozhat létre, és adatkészletet ad ki a gépi tanulási kísérletekben való használatra.
Modellteljesítmény monitorozása adateltolódással
A gépi tanulás kontextusában az adateltolódás magában foglalja a modell bemeneti adatainak változását, amely a modell teljesítménycsökkenéséhez vezet. Ez a fő oka annak, hogy a modell pontossága idővel csökken, és az adatelsodrások monitorozása segít észlelni a modell teljesítményével kapcsolatos problémákat.
További információt az Adathalmaz-figyelő létrehozása című témakörben talál, ahol megtudhatja, hogyan észlelheti és figyelmeztetheti az adathalmaz új adatainak adatelsodrésére.
Következő lépések
- Adatkészlet létrehozása az Azure Machine Learning Studióban vagy a Python SDK-val
- Adathalmazok betanítási példáinak kipróbálása mintajegyzetfüzeteinkkel