Share via


Azure Machine-Tanulás adatkészletek létrehozása Az Azure Open Datasetsből

Figyelemfelhívás

Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.

Ebből a cikkből megtudhatja, hogyan hozhat létre válogatott bővítési adatokat a helyi vagy távoli gépi tanulási kísérletekbe az Azure Machine Tanulás adatkészletekkel és az Azure Open Datasets szolgáltatással.

Egy Azure Machine Tanulás-adatkészlet létrehozásával az adatforrás helyére mutató hivatkozást és annak metaadatainak másolatát hozhatja létre. Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,

  • Nincs extra tárolási költség.
  • Ne kockáztassák az eredeti adatforrások véletlen módosítását.
  • Az ml-munkafolyamat teljesítményének javítása.

Az Adathalmazok az Azure Machine Tanulás általános adatelérési munkafolyamatában való helyének megismeréséhez tekintse meg a biztonságosan elérhető adatokról szóló cikket.

Az Azure Open Datasets olyan válogatott nyilvános adatkészletek, amelyekkel forgatókönyvspecifikus funkciókat adhat hozzá a prediktív megoldások gazdagításához és pontosságuk javításához. A nyilvános tartomány adatainak Open Datasets katalógusában a gépi tanulási modellek betanítása segít, például:

A nyílt adathalmazok a Microsoft Azure felhőjében találhatók, és mind az Azure Machine Tanulás Python SDK-ban, mind az Azure Machine Tanulás Studióban megtalálhatók.

Előfeltételek

Ehhez a cikkhez a következőkre van szüksége:

Feljegyzés

Egyes adathalmazosztályok függőségekkel rendelkeznek az azureml-dataprep csomaghoz, amely csak a 64 bites Pythonnal kompatibilis. Linux-felhasználók számára ezek az osztályok csak a következő disztribúciókban támogatottak: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) és CentOS (7).

Adatkészletek létrehozása az SDK-val

Ha Azure Machine Tanulás adatkészleteket szeretne létrehozni a Python SDK-ban található Azure Open Datasets-osztályokon keresztül, győződjön meg arról, hogy telepítette a csomagotpip install azureml-opendatasets. Minden különálló adatkészletet az SDK saját osztálya jelöl, és egyes osztályok Azure Machine-Tanulás TabularDatasetFileDatasetvagy mindkettőként érhetők el. Az osztályok teljes listáját a referenciadokumentációbanopendatasets találja.

Bizonyos opendatasets osztályokat lekérhet egy vagy FileDatasettöbb TabularDataset osztályként, így közvetlenül módosíthatja és/vagy letöltheti a fájlokat. Más osztályok csak a Python SDK osztályának Datasetvagy get_file_dataset() függvényeinek használatával kérhetnek le adathalmaztget_tabular_dataset().

Az alábbi kód azt mutatja, hogy az MNIST opendatasets osztály egy TabularDataset vagy FileDataset.

from azureml.core import Dataset
from azureml.opendatasets import MNIST

# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()

Ebben a példában a Diabétesz opendatasets osztály csak mint egy TabularDataset, ezért a használata get_tabular_dataset().


from azureml.opendatasets import Diabetes
from azureml.core import Dataset

# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()

Adathalmazok regisztrálása

Regisztráljon egy Azure Machine-Tanulás adatkészletet a munkaterületén, így megoszthatja őket másokkal, és újra felhasználhatja őket a munkaterületen végzett kísérletek során. Amikor regisztrál egy Azure Machine Tanulás Open Datasetsből létrehozott adatkészletet, a rendszer nem tölt le azonnal adatokat, de az adatok később lesznek elérhetők, amikor a rendszer kéri (például a betanítás során) egy központi tárolóhelyről.

Ha egy munkaterületen szeretné regisztrálni az adathalmazokat, használja a metódust register() .

titanic_ds = titanic_ds.register(workspace=workspace,
                                 name='titanic_ds',
                                 description='titanic training data')

Adathalmazok létrehozása a studióval

Azure Machine Tanulás adatkészleteket is létrehozhat az Azure Open Datasets szolgáltatásból az Azure Machine Tanulás Studióval, amely egy olyan összevont webes felület, amely gépi tanulási eszközöket tartalmaz az adatelemzési forgatókönyvek elvégzéséhez az adatelemzési szakemberek számára minden készségszinten.

Feljegyzés

Az Azure Machine Tanulás Studióban létrehozott adathalmazok automatikusan regisztrálva lesznek a munkaterületen.

  1. A munkaterületen válassza az Adathalmazok lapot az Eszközök területen. Az Adathalmaz létrehozása legördülő menüben válassza az Adathalmazok megnyitása lehetőséget.

    Adathalmaz megnyitása a felhasználói felülettel

  2. Jelöljön ki egy adathalmazt a csempe kiválasztásával. (A keresősáv használatával lehetősége van a szűrésre.) Válassza a Tovább gombot.

    Adatkészlet kiválasztása

  3. Válasszon egy nevet, amely alatt regisztrálni szeretné az adathalmazt, és igény szerint szűrje az adatokat a rendelkezésre álló szűrők használatával. Ebben az esetben a munkaszüneti napok adatkészlete esetében az időtartamot egy évre, az országkódot pedig csak az USA-ra szűri. Az azure open datasets katalógusban olyan adatrészleteket talál, mint például a mezőleírások és a dátumtartományok. Válassza a Létrehozás lehetőséget.

    Adathalmaz-paramok beállítása és adatkészlet létrehozása

    Az adatkészlet mostantól elérhető a munkaterületen az Adathalmazok területen. Ugyanúgy használhatja, mint a többi létrehozott adathalmazt.

Adathalmazok elérése a kísérletekhez

Az adathalmazokat gépi tanulási kísérletekben használhatja az ML-modellek betanításához. További információ az adathalmazok betanításairól.

Példajegyzetfüzetek

Az Open Datasets funkcióval kapcsolatos példákat és bemutatókat az alábbi mintajegyzetfüzetekben tekinti meg.

Következő lépések