Azure Machine Learning-adatkészlet létrehozása és felfedezése címkékkel
Ebben a cikkben megtudhatja, hogyan exportálhatja az adatfeliratokat egy Azure Machine Learning-adatcímkézési projektből, és hogyan töltheti be őket népszerű formátumokba, például egy pandas adatkeretbe adatfeltáráshoz.
Mik azok a címkékkel rendelkező adathalmazok?
A címkékkel ellátott Azure Machine Learning-adatkészleteket címkézett adathalmazoknak nevezzük. Ezek a konkrét adathalmazok dedikált címkeoszloptal rendelkező TabularDatasets-halmazok , és csak Az Azure Machine Learning-adatcímkézési projektek kimeneteként jönnek létre. Adatfeliratozási projekt létrehozása képfeliratozáshoz vagy szövegfeliratozáshoz. A Machine Learning támogatja az adatcímkézési projekteket a képosztályozáshoz, akár többcímkével, akár többosztályossal, valamint az objektumazonosítással, határolókeretekkel együtt.
Előfeltételek
- Azure-előfizetés. Ha nem rendelkezik Azure-előfizetéssel, mindössze néhány perc alatt létrehozhat egy ingyenes fiókot a virtuális gép létrehozásának megkezdése előtt.
- A Pythonhoz készült Azure Machine Learning SDK, vagy hozzáférés az Azure Machine Learning Studióhoz.
- Egy Machine Learning-munkaterület. Lásd: Munkaterület-erőforrások létrehozása.
- Hozzáférés egy Azure Machine Learning-adatcímkéző projekthez. Ha nem rendelkezik címkézési projektel, először hozzon létre egyet képfeliratozáshoz vagy szövegfeliratozáshoz.
Adatfeliratok exportálása
Az adatfeliratozási projekt befejezésekor exportálhatja a címkeadatokat egy címkézési projektből. Így rögzítheti az adatokra és a címkékre mutató hivatkozásokat, és COCO formátumban vagy Azure Machine Learning-adatkészletként exportálhatja őket.
Használja az Exportálás gombot a címkézési projekt Projekt részletei lapján.
COCO
A COCO-fájl az Azure Machine Learning-munkaterület alapértelmezett blobtárolójában jön létre egy exportálási/coco-mappában.
Feljegyzés
Objektumészlelési projektekben a COCO-fájlban az exportált "bbox": [x,y,szélesség,magasság]" értékek normalizálódnak. 1-re vannak skálázva. Példa: a (10, 10) helyen lévő határolókeret 30 képpont szélességű, 60 képpontos magasságú, 640x480 képpontos képen a következőként lesz eljegyezve: (0.015625. 0.02083, 0.046875, 0.125). Mivel a koordinták normalizálva vannak, "0,0" értékként jelenik meg az összes kép "szélessége" és "magassága". A tényleges szélesség és magasság a Python-kódtárak, például az OpenCV vagy a Pillow (PIL) használatával kérhető le.
Azure Machine Learning-adatkészlet
Az exportált Azure Machine Learning-adatkészletet az Azure Machine Learning Studio Adatkészletek szakaszában érheti el. Az adathalmaz részletei oldal mintakódot is biztosít a címkék Pythonból való eléréséhez.
Tipp.
Miután exportálta a címkézett adatokat egy Azure Machine Learning-adatkészletbe, az AutoML használatával számítógépes látásmodelleket hozhat létre a címkézett adatokra betanított számítógépes látási modellek létrehozásához. További információ: Az AutoML beállítása a számítógépes látásmodellek Pythonnal való betanítása érdekében
Címkékkel ellátott adathalmazok felfedezése pandas-adatkereten keresztül
Töltse be a címkézett adathalmazokat egy pandas-adatkeretbe, hogy népszerű nyílt forráskódú kódtárakat használjon az adatfeltáráshoz az to_pandas_dataframe()
azureml-dataprep
osztály metódusával.
Telepítse az osztályt a következő rendszerhéj-paranccsal:
pip install azureml-dataprep
Az alábbi kódban az animal_labels
adathalmaz egy korábban a munkaterületre mentett címkézési projekt kimenete.
Az exportált adatkészlet egy TabularDataset.
A KÖVETKEZŐKRE VONATKOZIK: Python SDK azureml v1
import azureml.core
from azureml.core import Dataset, Workspace
# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)
Következő lépések
Visszajelzés
https://aka.ms/ContentUserFeedback.
Hamarosan elérhető: 2024-ben fokozatosan kivezetjük a GitHub-problémákat a tartalom visszajelzési mechanizmusaként, és lecseréljük egy új visszajelzési rendszerre. További információ:Visszajelzés küldése és megtekintése a következőhöz: