Adatok az Azure Machine Learning v1-ben

A KÖVETKEZŐre vonatkozik: Azure CLI ml-bővítmény 1-es verzió

ÉRVÉNYES:Python SDK azureml v1

Az Azure Machine Tanulás megkönnyíti a felhőben tárolt adatokhoz való csatlakozást. Absztrakciós réteget biztosít a mögöttes tárolási szolgáltatáson keresztül, így biztonságosan elérheti és kezelheti az adatokat anélkül, hogy a tártípushoz tartozó kódot kellene írnia. Az Azure Machine Tanulás az alábbi adatképességeket is biztosítja:

  • Együttműködés a Pandas és a Spark DataFrames szolgáltatással
  • Az adatsorok verziószámozása és nyomon követése
  • Adatok címkézése
  • Adateltérések monitorozása

Adat-munkafolyamat

Az adatok felhőalapú tárolási megoldásban való használatához javasoljuk ezt az adatkézbesítési munkafolyamatot. A munkafolyamat feltételezi, hogy rendelkezik Azure Storage-fiókkal, és egy Azure felhőalapú tárolási szolgáltatásban lévő adatokkal.

  1. Azure Machine Tanulás-adattár létrehozása az Azure Storage-beli kapcsolati adatok tárolásához

  2. Ebből az adattárból hozzon létre egy Azure Machine-Tanulás adatkészletet, amely egy adott fájlra vagy fájlra mutat a mögöttes tárolóban

  3. Ha ezt az adatkészletet szeretné használni a gépi tanulási kísérletben, akkor

    • Az adathalmaz csatlakoztatása a kísérlet számítási céljához a modell betanításához

      VAGY

    • Használja fel az adathalmazt közvetlenül az Azure Machine Tanulás-megoldásokban – például automatizált gépi tanulási (automatizált gépi tanulási) kísérletfuttatásokban, gépi tanulási folyamatokban vagy az Azure Machine Tanulás tervezőjében.

  4. Adathalmaz-figyelők létrehozása a modell kimeneti adatkészletéhez az adateltolódás észleléséhez

  5. Az észlelt adateltolódás esetén frissítse a bemeneti adatkészletet, és ennek megfelelően tanítsa be újra a modellt

Ez a képernyőkép az ajánlott munkafolyamatot mutatja be:

Screenshot showing the Azure Storage Service, which flows into a datastore and then into a dataset.

Csatlakozás adattárakkal való tároláshoz

Az Azure Machine Tanulás adattárak biztonságosan üzemeltetik az adattárolási kapcsolat adatait az Azure-ban, így nem kell ezeket az adatokat a szkriptekben elhelyeznie. A tárfiókhoz való csatlakozásról és a mögöttes tárolási szolgáltatásban való adathozzáférésről további információt a Regisztráció és egy adattár létrehozása című témakörben talál.

Ezek a támogatott azure-beli felhőalapú tárolási szolgáltatások adattárként regisztrálhatnak:

  • Azure-blobtároló
  • Azure-fájlmegosztás
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database for PostgreSQL
  • Databricks fájlrendszer
  • Azure Database for MySQL

Tipp.

A tárolási szolgáltatások eléréséhez létrehozhat adattárakat hitelesítő adatokon alapuló hitelesítéssel, például szolgáltatásnévvel vagy közös hozzáférésű jogosultságkóddal (SAS- jogkivonattal). A munkaterület olvasói hozzáféréssel rendelkező felhasználói hozzáférhetnek ezekhez a hitelesítő adatokhoz.

Ha ez aggodalomra ad okot, hozzon létre egy olyan adattárat, amely identitásalapú adathozzáférést használ a tárolási szolgáltatásokhoz való kapcsolatokról.

Referenciaadatok a tárolóban adatkészletekkel

Az Azure Machine Tanulás adathalmazok nem az adatok másolatai. Maga az adathalmaz létrehozása a társzolgáltatásban lévő adatokra mutató hivatkozást, valamint a metaadatok másolatát hozza létre.

Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,

  • Nincs extra tárolási költség
  • Ne kockáztasson véletlen módosításokat az eredeti adatforrások esetében
  • Az ml-munkafolyamat teljesítményének javítása

A tárolóban lévő adatok kezeléséhez hozzon létre egy adatkészletet, amely egy hasznos objektumba csomagolja az adatokat a gépi tanulási feladatokhoz. Regisztrálja az adathalmazt a munkaterületen, hogy adatbetöltési összetettségek nélkül ossza meg és használja újra a különböző kísérletekben.

Adatkészleteket helyi fájlokból, nyilvános URL-címekből, Azure Open Datasetsből vagy Azure Storage-szolgáltatásokból hozhat létre adattárakon keresztül.

Kétféle adathalmaz létezik:

  • A FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken. Ha az adatok már kitisztultak, és készen állnak a betanítási kísérletekre, letöltheti vagy csatlakoztathatja a FileDatasets által hivatkozott fájlokat a számítási célhoz

  • A TabularDataset táblázatos formátumban jeleníti meg az adatokat a megadott fájl vagy fájllista elemzésével. A TabularDataset egy pandasba vagy Spark DataFrame-be tölthető be további manipuláció és tisztítás céljából. A TabularDatasetFactory osztályban megtekintheti az adatformátumok teljes listáját, amelyekből táblázatos adathalmazokat hozhat létre.

Ezek az erőforrások további információt nyújtanak az adathalmaz képességeiről:

Az adatok kezelése

Adatkészletekkel gépi tanulási feladatokat végezhet az Azure Machine Tanulás funkcióival való zökkenőmentes integrációval.

Adatok címkézése adatfeliratozási projektekkel

A gépi tanulási projektekben nagy mennyiségű adat címkézése fejfájást okozhat. A számítógépes látás összetevőt, például a képbesorolást vagy az objektumészlelést magában foglaló projektekhez gyakran több ezer képre és megfelelő címkékre van szükség.

Az Azure Machine Tanulás központi helyet biztosít a címkézési projektek létrehozásához, kezeléséhez és monitorozásához. A címkézési projektek segítenek összehangolni az adatokat, a címkéket és a csapattagokat, hogy hatékonyabban kezelhesse a címkézési feladatokat. A jelenleg támogatott feladatok magukban foglalják a képbesorolást, akár többcímkét, akár többosztályost, és határolókereteket használó objektumazonosítást.

Képfeliratozási projektet vagy szövegfeliratozási projektet hozhat létre, és adatkészletet ad ki a gépi tanulási kísérletekben való használatra.

Modellteljesítmény monitorozása adateltolódással

A gépi tanulás kontextusában az adateltolódás magában foglalja a modell bemeneti adatainak változását, amely a modell teljesítménycsökkenéséhez vezet. Ez a fő oka annak, hogy a modell pontossága idővel csökken, és az adatelsodrások monitorozása segít észlelni a modell teljesítményével kapcsolatos problémákat.

További információt az Adathalmaz-figyelő létrehozása című témakörben talál, ahol megtudhatja, hogyan észlelheti és figyelmeztetheti az adathalmaz új adatainak adatelsodrésére.

Következő lépések