Azure Machine Learning-gegevensset maken en verkennen met labels

In dit artikel leert u hoe u de gegevenslabels uit een Azure Machine Learning-gegevenslabelproject exporteert en laadt in populaire indelingen, zoals een pandas-dataframe voor gegevensverkenning.

Wat zijn gegevenssets met labels?

Azure Machine Learning-gegevenssets met labels worden aangeduid als gelabelde gegevenssets. Deze specifieke gegevenssets zijn TabularDatasets met een toegewezen labelkolom en worden alleen gemaakt als uitvoer van Azure Machine Learning-gegevenslabelprojecten. Maak een gegevenslabelproject voor het labelen van afbeeldingen of tekstlabels. Machine Learning ondersteunt projecten voor gegevenslabels voor afbeeldingsclassificatie, meerdere labels of meerdere klassen, en objectidentificatie samen met gebonden vakken.

Vereisten

Gegevenslabels exporteren

Wanneer u een gegevenslabelproject voltooit, kunt u de labelgegevens exporteren uit een labelproject. Hierdoor kunt u zowel de verwijzing naar de gegevens als de bijbehorende labels vastleggen en deze exporteren in COCO-indeling of als een Azure Machine Learning-gegevensset.

Gebruik de knop Exporteren op de pagina Projectdetails van het labelproject.

Export button in studio UI

COCO

Het COCO-bestand wordt gemaakt in de Blob-standaardopslag van de Azure Machine Learning-werkruimte in een map binnen export/coco.

Notitie

In objectdetectieprojecten worden de geëxporteerde "bbox": [x,y,width,height]" waarden in cocosbestand genormaliseerd. Ze worden geschaald naar 1. Voorbeeld: een begrenzingsvak op (10, 10) locatie, met 30 pixels breedte, 60 pixels hoogte, in een afbeelding van 640x480 pixels wordt geannoteerd als (0,015625. 0,02083, 0,046875, 0,125). Omdat de coordintes zijn genormaliseerd, wordt deze weergegeven als '0,0' als 'breedte' en 'hoogte' voor alle afbeeldingen. De werkelijke breedte en hoogte kunnen worden verkregen met behulp van een Python-bibliotheek zoals OpenCV of Pillow(PIL).

Azure Machine Learning-gegevensset

U hebt toegang tot de geëxporteerde Azure Machine Learning-gegevensset in de sectie Gegevenssets van uw Azure Machine Learning-studio. De pagina Details van de gegevensset bevat ook voorbeeldcode voor toegang tot uw labels vanuit Python.

Exported dataset

Tip

Zodra u uw gelabelde gegevens hebt geëxporteerd naar een Azure Machine Learning-gegevensset, kunt u AutoML gebruiken om computer Vision-modellen te bouwen die zijn getraind op uw gelabelde gegevens. Meer informatie op AutoML instellen voor het trainen van Computer Vision-modellen met Python

Gelabelde gegevenssets verkennen via pandas-dataframe

Laad uw gelabelde gegevenssets in een pandas-dataframe om gebruik te maken van populaire opensource-bibliotheken voor gegevensverkenning met de to_pandas_dataframe() methode uit de azureml-dataprep klasse.

Installeer de klasse met de volgende shell-opdracht:

pip install azureml-dataprep

In de volgende code is de animal_labels gegevensset de uitvoer van een labelproject dat eerder in de werkruimte is opgeslagen. De geëxporteerde gegevensset is een TabularDataset.

VAN TOEPASSING OP: Python SDK azureml v1

import azureml.core
from azureml.core import Dataset, Workspace

# get animal_labels dataset from the workspace
animal_labels = Dataset.get_by_name(workspace, 'animal_labels')
animal_pd = animal_labels.to_pandas_dataframe()

import matplotlib.pyplot as plt
import matplotlib.image as mpimg

#read images from dataset
img = mpimg.imread(animal_pd['image_url'].iloc(0).open())
imgplot = plt.imshow(img)

Volgende stappen