Adatok előkészítése számítógépes látási feladatokhoz automatizált gépi tanulás v1 használatával
A KÖVETKEZŐKRE VONATKOZIK: Python SDK azureml v1
Fontos
A cikkben szereplő Azure CLI-parancsok némelyike az azure-cli-ml
Azure Machine Learning bővítményét vagy v1-et használja. A v1-bővítmény támogatása 2025. szeptember 30-án megszűnik. Addig a dátumig telepítheti és használhatja a v1-bővítményt.
Javasoljuk, hogy 2025. szeptember 30-a előtt váltsa át a ml
(vagy v2) bővítményt. További információ a v2-es bővítményről: Azure ML CLI-bővítmény és Python SDK v2.
Fontos
Az Azure Machine Learningben az automatizált gépi tanulással rendelkező számítógépes látásmodellek betanításának támogatása egy kísérleti nyilvános előzetes verziójú funkció. Előfordulhat, hogy néhány funkció nem támogatott, vagy korlátozott képességekkel rendelkezik. További információ: Kiegészítő használati feltételek a Microsoft Azure előzetes verziójú termékeihez.
Ebből a cikkből megtudhatja, hogyan készítheti elő a rendszerképadatokat a számítógépes látásmodellek betanításához automatizált gépi tanulással az Azure Machine Learningben.
Ahhoz, hogy modelleket hozzon létre a számítógépes látási feladatokhoz az AutoML-lel, címkézett képadatokat kell bevinnie a modellbetanításhoz egy Azure Machine Learning TabularDataset formájában.
Annak érdekében, hogy a TabularDataset tartalmazza az automatizált gépi tanulásban való felhasználáshoz elfogadott sémát, használhatja az Azure Machine Learning adatcímkéző eszközét, vagy használhat konverziós szkriptet.
Előfeltételek
Ismerkedjen meg az AutoML számítógépes látási kísérleteihez használható JSONL-fájlok elfogadott sémáival.
A számítógépes látásmodellek automatizált gépi tanulással való betanítása érdekében használni kívánt címkézett adatok.
Azure Machine Learning-adatok címkézése
Ha nem rendelkezik címkézett adatokkal, az Azure Machine Learning adatcímkéző eszközével manuálisan címkézhet képeket. Ez az eszköz automatikusan létrehozza a betanításhoz szükséges adatokat az elfogadott formátumban.
Segít az adatcímkézési feladatok létrehozásában, kezelésében és monitorozásában
- Képbesorolás (többosztályos és többcímke)
- Objektumészlelés (határolókeret)
- Példányszegmentáció (sokszög)
Ha már rendelkezik adatfeliratozási projekttel, és ezeket az adatokat szeretné használni, exportálhatja a címkézett adatokat Azure Machine Learning TabularDatasetként, amely ezután közvetlenül használható az automatizált gépi tanulással a számítógépes látásmodellek betanításához.
Konverziós szkriptek használata
Ha olyan népszerű számítógépes látási adatformátumokban címkézett adatokat, mint a VOC vagy a COCO, a JSONL-fájlok létrehozására szolgáló segédszkriptek a betanítási és érvényesítési adatokhoz elérhetők a jegyzetfüzet-példákban.
Ha az adatok nem követik a korábban említett formátumokat, saját szkripttel hozhat létre JSON Lines-fájlokat. JSON Lines-fájlok létrehozásához használja a Sémában definiált sémákat JSONL-fájlokhoz autoML-képkísérletekhez.
Miután az adatfájlokat az elfogadott JSONL formátumra konvertálta, feltöltheti őket az Azure-beli tárfiókjába.
A JSONL-fájl és a képek feltöltése a tárolóba
Az adatok automatizált gépi tanulási betanításhoz való használatához töltse fel az adatokat az Azure Machine Learning-munkaterületre egy adattáron keresztül. Az adattár olyan mechanizmust biztosít, amellyel adatokat tölthet fel/tölthet le az Azure-beli tárolókba, és kezelheti azokat a távoli számítási célokból.
Töltse fel a teljes szülőkönyvtárat, amely képekből és JSONL-fájlokból áll a munkaterület létrehozásakor automatikusan létrehozott alapértelmezett adattárba. Ez az adattár a munkaterület létrehozása során létrehozott alapértelmezett Azure Blob Storage-tárolóhoz csatlakozik.
# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')
Az adatfeltöltés befejezése után létrehozhat egy Azure Machine Learning TabularDatasetet. Ezután regisztrálja az adathalmazt a munkaterületre, hogy később felhasználhassa a számítógépes látásmodellek automatizált gépi tanulási kísérleteinek bemeneteként.
from azureml.core import Dataset
from azureml.data import DataType
training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
set_column_types={"image_url": DataType.to_stream(ds.workspace)}
)
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)
print("Training dataset name: " + training_dataset.name)