Azure Machine Learning-gegevensset maken en verkennen met labels
In dit artikel leert u hoe u de gegevenslabels uit een Azure Machine Learning-gegevenslabelproject exporteert en laadt in populaire indelingen, zoals een pandas-dataframe voor gegevensverkenning.
Wat zijn gegevenssets met labels?
Azure Machine Learning-gegevenssets met labels worden aangeduid als gelabelde gegevenssets. Deze specifieke gegevenssets zijn TabularDatasets met een toegewezen labelkolom en worden alleen gemaakt als uitvoer van Azure Machine Learning-gegevenslabelprojecten. Maak een gegevenslabelproject voor het labelen van afbeeldingen of tekstlabels. Machine Learning ondersteunt projecten voor gegevenslabels voor afbeeldingsclassificatie, meerdere labels of meerdere klassen, en objectidentificatie samen met gebonden vakken.
Vereisten
- Een Azure-abonnement. Als u nog geen abonnement op Azure hebt, maakt u een gratis account aan voordat u begint.
- De Azure Machine Learning SDK voor Python of toegang tot Azure Machine Learning-studio.
- Een Machine Learning-werkruimte. Zie Werkruimtebronnen maken.
- Toegang tot een Azure Machine Learning-gegevenslabelproject. Als u geen labelproject hebt, maakt u er eerst een voor afbeeldingslabels of tekstlabels.
Gegevenslabels exporteren
Wanneer u een gegevenslabelproject voltooit, kunt u de labelgegevens exporteren uit een labelproject. Hierdoor kunt u zowel de verwijzing naar de gegevens als de bijbehorende labels vastleggen en deze exporteren in COCO-indeling of als een Azure Machine Learning-gegevensset.
Gebruik de knop Exporteren op de pagina Projectdetails van het labelproject.
COCO
Het COCO-bestand wordt gemaakt in de Blob-standaardopslag van de Azure Machine Learning-werkruimte in een map binnen export/coco.
Notitie
In objectdetectieprojecten worden de geëxporteerde "bbox": [x,y,width,height]" waarden in cocosbestand genormaliseerd. Ze worden geschaald naar 1. Voorbeeld: een begrenzingsvak op (10, 10) locatie, met 30 pixels breedte, 60 pixels hoogte, in een afbeelding van 640x480 pixels wordt geannoteerd als (0,015625. 0,02083, 0,046875, 0,125). Omdat de coordintes zijn genormaliseerd, wordt deze weergegeven als '0,0' als 'breedte' en 'hoogte' voor alle afbeeldingen. De werkelijke breedte en hoogte kunnen worden verkregen met behulp van een Python-bibliotheek zoals OpenCV of Pillow(PIL).
Azure Machine Learning-gegevensset
U hebt toegang tot de geëxporteerde Azure Machine Learning-gegevensset in de sectie Gegevenssets van uw Azure Machine Learning-studio. De pagina Details van de gegevensset bevat ook voorbeeldcode voor toegang tot uw labels vanuit Python.
Tip
Zodra u uw gelabelde gegevens hebt geëxporteerd naar een Azure Machine Learning-gegevensset, kunt u AutoML gebruiken om computer Vision-modellen te bouwen die zijn getraind op uw gelabelde gegevens. Meer informatie op AutoML instellen voor het trainen van Computer Vision-modellen met Python
Gelabelde gegevenssets verkennen via pandas-dataframe
Laad uw gelabelde gegevenssets in een pandas-dataframe om gebruik te maken van populaire opensource-bibliotheken voor gegevensverkenning met de to_pandas_dataframe()
methode uit de azureml-dataprep
klasse.
Installeer de klasse met de volgende shell-opdracht:
pip install azureml-dataprep
In de volgende code is de animal_labels
gegevensset de uitvoer van een labelproject dat eerder in de werkruimte is opgeslagen.
De geëxporteerde gegevensset is een TabularDataset.
VAN TOEPASSING OP: Python SDK azureml v1
import azureml.core
from azureml.core import Dataset, Workspace
# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()
import matplotlib.pyplot as plt
import matplotlib.image as mpimg
#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)