Megosztás a következőn keresztül:


Adatok az Azure Machine Learning v1-ben

A KÖVETKEZŐRE VONATKOZIK: Azure CLI ml-bővítmény 1-es verzió

A KÖVETKEZŐKRE VONATKOZIK: Python SDK azureml v1

Az Azure Machine Learning megkönnyíti a felhőbeli adatokhoz való csatlakozást. Absztrakciós réteget biztosít a mögöttes tárolási szolgáltatáson keresztül, így biztonságosan elérheti és kezelheti az adatokat anélkül, hogy a tártípushoz tartozó kódot kellene írnia. Az Azure Machine Learning az alábbi adatképességeket is biztosítja:

  • Együttműködés a Pandas és a Spark DataFrames szolgáltatással
  • Az adatsorok verziószámozása és nyomon követése
  • Adatok címkézése
  • Adateltérések monitorozása

Adat-munkafolyamat

Az adatok felhőalapú tárolási megoldásban való használatához javasoljuk ezt az adatkézbesítési munkafolyamatot. A munkafolyamat feltételezi, hogy rendelkezik Azure Storage-fiókkal, és egy Azure felhőalapú tárolási szolgáltatásban lévő adatokkal.

  1. Azure Machine Learning-adattár létrehozása az Azure Storage-beli kapcsolati adatok tárolásához

  2. Az adattárból hozzon létre egy Azure Machine Learning-adatkészletet , amely egy adott fájlra vagy fájlra mutat a mögöttes tárolóban

  3. Ha ezt az adatkészletet szeretné használni a gépi tanulási kísérletben, akkor

    • Az adathalmaz csatlakoztatása a kísérlet számítási céljához a modell betanításához

      VAGY

    • Az adathalmazt közvetlenül az Azure Machine Learning-megoldásokban használhatja fel – például automatizált gépi tanulási (automatizált gépi tanulási) kísérletfuttatásokat, gépi tanulási folyamatokat vagy az Azure Machine Learning-tervezőt.

  4. Adathalmaz-figyelők létrehozása a modell kimeneti adatkészletéhez az adateltolódás észleléséhez

  5. Az észlelt adateltolódás esetén frissítse a bemeneti adatkészletet, és ennek megfelelően tanítsa be újra a modellt

Ez a képernyőkép az ajánlott munkafolyamatot mutatja be:

Képernyőkép az Azure Storage Service-ről, amely egy adattárba, majd egy adathalmazba áramlik.

Csatlakozás a tárolóhoz adattárakkal

Az Azure Machine Learning-adattárak biztonságosan üzemeltetik az adattárolási kapcsolat adatait az Azure-ban, így nem kell ezeket az adatokat a szkriptekben elhelyeznie. A tárfiókhoz való csatlakozásról és a mögöttes tárolási szolgáltatásban való adathozzáférésről további információt a Regisztráció és egy adattár létrehozása című témakörben talál.

Ezek a támogatott azure-beli felhőalapú tárolási szolgáltatások adattárként regisztrálhatnak:

  • Azure-blobtároló
  • Azure-fájlmegosztás
  • Azure Data Lake
  • Azure Data Lake Gen2
  • Azure SQL Database
  • Azure Database for PostgreSQL
  • Databricks fájlrendszer
  • Azure Database for MySQL

Tipp.

A tárolási szolgáltatások eléréséhez létrehozhat adattárakat hitelesítő adatokon alapuló hitelesítéssel, például szolgáltatásnévvel vagy közös hozzáférésű jogosultságkóddal (SAS- jogkivonattal). A munkaterület olvasói hozzáféréssel rendelkező felhasználói hozzáférhetnek ezekhez a hitelesítő adatokhoz.

Ha ez aggodalomra ad okot, hozzon létre egy olyan adattárat, amely identitásalapú adathozzáférést használ a tárolási szolgáltatásokhoz való kapcsolatokról.

Referenciaadatok a tárolóban adatkészletekkel

Az Azure Machine Learning-adathalmazok nem az adatok másolatai. Maga az adathalmaz létrehozása a társzolgáltatásban lévő adatokra mutató hivatkozást, valamint a metaadatok másolatát hozza létre.

Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,

  • Nincs extra tárolási költség
  • Ne kockáztasson véletlen módosításokat az eredeti adatforrások esetében
  • Az ml-munkafolyamat teljesítményének javítása

A tárolóban lévő adatok kezeléséhez hozzon létre egy adatkészletet, amely egy hasznos objektumba csomagolja az adatokat a gépi tanulási feladatokhoz. Regisztrálja az adathalmazt a munkaterületen, hogy adatbetöltési összetettségek nélkül ossza meg és használja újra a különböző kísérletekben.

Adatkészleteket helyi fájlokból, nyilvános URL-címekből, Azure Open Datasetsből vagy Azure Storage-szolgáltatásokból hozhat létre adattárakon keresztül.

Kétféle adathalmaz létezik:

  • A FileDataset egy vagy több fájlra hivatkozik az adattárakban vagy a nyilvános URL-címeken. Ha az adatok már kitisztultak, és készen állnak a betanítási kísérletekre, letöltheti vagy csatlakoztathatja a FileDatasets által hivatkozott fájlokat a számítási célhoz

  • A TabularDataset táblázatos formátumban jeleníti meg az adatokat a megadott fájl vagy fájllista elemzésével. A TabularDataset egy pandasba vagy Spark DataFrame-be tölthető be további manipuláció és tisztítás céljából. A TabularDatasetFactory osztályban megtekintheti az adatformátumok teljes listáját, amelyekből táblázatos adathalmazokat hozhat létre.

Ezek az erőforrások további információt nyújtanak az adathalmaz képességeiről:

Az adatok kezelése

Adathalmazokkal gépi tanulási feladatokat végezhet az Azure Machine Learning funkcióival való zökkenőmentes integrációval.

Adatok címkézése adatfeliratozási projektekkel

A gépi tanulási projektekben nagy mennyiségű adat címkézése fejfájást okozhat. A számítógépes látás összetevőt, például a képbesorolást vagy az objektumészlelést magában foglaló projektekhez gyakran több ezer képre és megfelelő címkékre van szükség.

Az Azure Machine Learning központi helyet biztosít a címkézési projektek létrehozásához, kezeléséhez és monitorozásához. A címkézési projektek segítenek összehangolni az adatokat, a címkéket és a csapattagokat, hogy hatékonyabban kezelhesse a címkézési feladatokat. A jelenleg támogatott feladatok magukban foglalják a képbesorolást, akár többcímkét, akár többosztályost, és határolókereteket használó objektumazonosítást.

Képfeliratozási projektet vagy szövegfeliratozási projektet hozhat létre, és adatkészletet ad ki a gépi tanulási kísérletekben való használatra.

Modellteljesítmény monitorozása adateltolódással

A gépi tanulás kontextusában az adateltolódás magában foglalja a modell bemeneti adatainak változását, amely a modell teljesítménycsökkenéséhez vezet. Ez a fő oka annak, hogy a modell pontossága idővel csökken, és az adatelsodrások monitorozása segít észlelni a modell teljesítményével kapcsolatos problémákat.

További információt az Adathalmaz-figyelő létrehozása című témakörben talál, ahol megtudhatja, hogyan észlelheti és figyelmeztetheti az adathalmaz új adatainak adatelsodrésére.

Következő lépések