Azure Machine-Tanulás adatkészletek létrehozása Az Azure Open Datasetsből
Figyelemfelhívás
Ez a cikk a CentOS-ra, egy olyan Linux-disztribúcióra hivatkozik, amely közel áll az élettartam (EOL) állapotához. Ennek megfelelően fontolja meg a használatot és a tervezést. További információ: CentOS End Of Life útmutató.
Ebből a cikkből megtudhatja, hogyan hozhat létre válogatott bővítési adatokat a helyi vagy távoli gépi tanulási kísérletekbe az Azure Machine Tanulás adatkészletekkel és az Azure Open Datasets szolgáltatással.
Egy Azure Machine Tanulás-adatkészlet létrehozásával az adatforrás helyére mutató hivatkozást és annak metaadatainak másolatát hozhatja létre. Mivel az adathalmazok lazán vannak kiértékelve, és az adatok a meglévő helyen maradnak,
- Nincs extra tárolási költség.
- Ne kockáztassák az eredeti adatforrások véletlen módosítását.
- Az ml-munkafolyamat teljesítményének javítása.
Az Adathalmazok az Azure Machine Tanulás általános adatelérési munkafolyamatában való helyének megismeréséhez tekintse meg a biztonságosan elérhető adatokról szóló cikket.
Az Azure Open Datasets olyan válogatott nyilvános adatkészletek, amelyekkel forgatókönyvspecifikus funkciókat adhat hozzá a prediktív megoldások gazdagításához és pontosságuk javításához. A nyilvános tartomány adatainak Open Datasets katalógusában a gépi tanulási modellek betanítása segít, például:
A nyílt adathalmazok a Microsoft Azure felhőjében találhatók, és mind az Azure Machine Tanulás Python SDK-ban, mind az Azure Machine Tanulás Studióban megtalálhatók.
Előfeltételek
Ehhez a cikkhez a következőkre van szüksége:
Azure-előfizetés. Ha még nincs előfizetése, hozzon létre egy ingyenes fiókot, mielőtt hozzákezd. Próbálja ki az Azure Machine Tanulás ingyenes vagy fizetős verzióját.
Azure Machine Tanulás munkaterület.
Az Azure Machine Tanulás Pythonhoz készült SDK telepítve van, amely tartalmazza a
azureml-datasets
csomagot.- Hozzon létre egy Azure Machine Tanulás számítási példányt, amely egy teljesen konfigurált és felügyelt fejlesztési környezet, amely integrált jegyzetfüzeteket és már telepített SDK-t tartalmaz.
VAGY
Feljegyzés
Egyes adathalmazosztályok függőségekkel rendelkeznek az azureml-dataprep csomaghoz, amely csak a 64 bites Pythonnal kompatibilis. Linux-felhasználók számára ezek az osztályok csak a következő disztribúciókban támogatottak: Red Hat Enterprise Linux (7, 8), Ubuntu (14.04, 16.04, 18.04), Fedora (27, 28), Debian (8, 9) és CentOS (7).
Adatkészletek létrehozása az SDK-val
Ha Azure Machine Tanulás adatkészleteket szeretne létrehozni a Python SDK-ban található Azure Open Datasets-osztályokon keresztül, győződjön meg arról, hogy telepítette a csomagotpip install azureml-opendatasets
. Minden különálló adatkészletet az SDK saját osztálya jelöl, és egyes osztályok Azure Machine-Tanulás TabularDataset
FileDataset
vagy mindkettőként érhetők el. Az osztályok teljes listáját a referenciadokumentációbanopendatasets
találja.
Bizonyos opendatasets
osztályokat lekérhet egy vagy FileDataset
több TabularDataset
osztályként, így közvetlenül módosíthatja és/vagy letöltheti a fájlokat. Más osztályok csak a Python SDK osztályának Dataset
vagy get_file_dataset()
függvényeinek használatával kérhetnek le adathalmaztget_tabular_dataset()
.
Az alábbi kód azt mutatja, hogy az MNIST opendatasets
osztály egy TabularDataset
vagy FileDataset
.
from azureml.core import Dataset
from azureml.opendatasets import MNIST
# MNIST class can return either TabularDataset or FileDataset
tabular_dataset = MNIST.get_tabular_dataset()
file_dataset = MNIST.get_file_dataset()
Ebben a példában a Diabétesz opendatasets
osztály csak mint egy TabularDataset
, ezért a használata get_tabular_dataset()
.
from azureml.opendatasets import Diabetes
from azureml.core import Dataset
# Diabetes class can return ONLY TabularDataset and must be called from the static function
diabetes_tabular = Diabetes.get_tabular_dataset()
Adathalmazok regisztrálása
Regisztráljon egy Azure Machine-Tanulás adatkészletet a munkaterületén, így megoszthatja őket másokkal, és újra felhasználhatja őket a munkaterületen végzett kísérletek során. Amikor regisztrál egy Azure Machine Tanulás Open Datasetsből létrehozott adatkészletet, a rendszer nem tölt le azonnal adatokat, de az adatok később lesznek elérhetők, amikor a rendszer kéri (például a betanítás során) egy központi tárolóhelyről.
Ha egy munkaterületen szeretné regisztrálni az adathalmazokat, használja a metódust register()
.
titanic_ds = titanic_ds.register(workspace=workspace,
name='titanic_ds',
description='titanic training data')
Adathalmazok létrehozása a studióval
Azure Machine Tanulás adatkészleteket is létrehozhat az Azure Open Datasets szolgáltatásból az Azure Machine Tanulás Studióval, amely egy olyan összevont webes felület, amely gépi tanulási eszközöket tartalmaz az adatelemzési forgatókönyvek elvégzéséhez az adatelemzési szakemberek számára minden készségszinten.
Feljegyzés
Az Azure Machine Tanulás Studióban létrehozott adathalmazok automatikusan regisztrálva lesznek a munkaterületen.
A munkaterületen válassza az Adathalmazok lapot az Eszközök területen. Az Adathalmaz létrehozása legördülő menüben válassza az Adathalmazok megnyitása lehetőséget.
Jelöljön ki egy adathalmazt a csempe kiválasztásával. (A keresősáv használatával lehetősége van a szűrésre.) Válassza a Tovább gombot.
Válasszon egy nevet, amely alatt regisztrálni szeretné az adathalmazt, és igény szerint szűrje az adatokat a rendelkezésre álló szűrők használatával. Ebben az esetben a munkaszüneti napok adatkészlete esetében az időtartamot egy évre, az országkódot pedig csak az USA-ra szűri. Az azure open datasets katalógusban olyan adatrészleteket talál, mint például a mezőleírások és a dátumtartományok. Válassza a Létrehozás lehetőséget.
Az adatkészlet mostantól elérhető a munkaterületen az Adathalmazok területen. Ugyanúgy használhatja, mint a többi létrehozott adathalmazt.
Adathalmazok elérése a kísérletekhez
Az adathalmazokat gépi tanulási kísérletekben használhatja az ML-modellek betanításához. További információ az adathalmazok betanításairól.
Példajegyzetfüzetek
Az Open Datasets funkcióval kapcsolatos példákat és bemutatókat az alábbi mintajegyzetfüzetekben tekinti meg.
Következő lépések
Az első ml-modell betanítása.
Azure machine learning-adatkészlet létrehozása.