Megosztás a következőn keresztül:


Azure Machine Learning-adatkészlet létrehozása és felfedezése címkékkel

Ebben a cikkben megtudhatja, hogyan exportálhatja az adatfeliratokat egy Azure Machine Learning-adatcímkézési projektből, és hogyan töltheti be őket népszerű formátumokba, például egy pandas adatkeretbe adatfeltáráshoz.

Mik azok a címkékkel rendelkező adathalmazok?

A címkékkel ellátott Azure Machine Learning-adatkészleteket címkézett adathalmazoknak nevezzük. Ezek a konkrét adathalmazok dedikált címkeoszloptal rendelkező TabularDatasets-halmazok , és csak Az Azure Machine Learning-adatcímkézési projektek kimeneteként jönnek létre. Adatfeliratozási projekt létrehozása képfeliratozáshoz vagy szövegfeliratozáshoz. A Machine Learning támogatja az adatcímkézési projekteket a képosztályozáshoz, akár többcímkével, akár többosztályossal, valamint az objektumazonosítással, határolókeretekkel együtt.

Előfeltételek

  • Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes fiókot a virtuális gép létrehozásának megkezdése előtt.
  • A Pythonhoz készült Azure Machine Learning SDK, vagy hozzáférés az Azure Machine Learning Studióhoz.
  • Egy Machine Learning-munkaterület. Lásd: Munkaterület-erőforrások létrehozása.
  • Hozzáférés egy Azure Machine Learning-adatcímkéző projekthez. Ha nem rendelkezik címkézési projektel, először hozzon létre egyet képfeliratozáshoz vagy szövegfeliratozáshoz.

Adatfeliratok exportálása

Az adatfeliratozási projekt befejezésekor exportálhatja a címkeadatokat egy címkézési projektből. Így rögzítheti az adatokra és a címkékre mutató hivatkozásokat, és COCO formátumban vagy Azure Machine Learning-adatkészletként exportálhatja őket.

Használja az Exportálás gombot a címkézési projekt Projekt részletei lapján.

Exportálás gomb a studio felhasználói felületén

COCO

A COCO-fájl az Azure Machine Learning-munkaterület alapértelmezett blobtárolójában jön létre egy exportálási/coco-mappában.

Feljegyzés

Objektumészlelési projektekben a COCO-fájlban az exportált "bbox": [x,y,szélesség,magasság]" értékek normalizálódnak. 1-re vannak skálázva. Példa: a (10, 10) helyen lévő határolókeret 30 képpont szélességű, 60 képpontos magasságú, 640x480 képpontos képen a következőként lesz eljegyezve: (0.015625. 0.02083, 0.046875, 0.125). Mivel a koordinták normalizálva vannak, "0,0" értékként jelenik meg az összes kép "szélessége" és "magassága". A tényleges szélesség és magasság a Python-kódtárak, például az OpenCV vagy a Pillow (PIL) használatával kérhető le.

Azure Machine Learning-adatkészlet

Az exportált Azure Machine Learning-adatkészletet az Azure Machine Learning Studio Adatkészletek szakaszában érheti el. Az adathalmaz részletei oldal mintakódot is biztosít a címkék Pythonból való eléréséhez.

Exportált adatkészlet

Tipp.

Miután exportálta a címkézett adatokat egy Azure Machine Learning-adatkészletbe, az AutoML használatával számítógépes látásmodelleket hozhat létre a címkézett adatokra betanított számítógépes látási modellek létrehozásához. További információ: Az AutoML beállítása a számítógépes látásmodellek Pythonnal való betanítása érdekében

Címkékkel ellátott adathalmazok felfedezése pandas-adatkereten keresztül

Töltse be a címkézett adathalmazokat egy pandas-adatkeretbe, hogy népszerű nyílt forráskódú kódtárakat használjon az adatfeltáráshoz az to_pandas_dataframe() azureml-dataprep osztály metódusával.

Telepítse az osztályt a következő rendszerhéj-paranccsal:

pip install azureml-dataprep

Az alábbi kódban az animal_labels adathalmaz egy korábban a munkaterületre mentett címkézési projekt kimenete. Az exportált adatkészlet egy TabularDataset.

A KÖVETKEZŐKRE VONATKOZIK: Python SDK azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

Következő lépések