Поделиться через


Подготовка данных для задач компьютерного зрения с помощью автоматизированного машинного обучения (версия 1)

ОБЛАСТЬ ПРИМЕНЕНИЯ: Пакет SDK для Python версии 1

Внимание

Для использования некоторых команд Azure CLI, приведенных в этой статье, используйте расширение azure-cli-ml (версия 1) для Машинного обучения Azure. Поддержка расширения версии 1 будет прекращена 30 сентября 2025 г. Вы можете установить и использовать расширение версии 1 до этой даты.

Рекомендуется перейти на расширение ml (версия 2) до 30 сентября 2025 г. Дополнительные сведения о расширении версии 2 см. на странице расширения CLI для Azure ML и пакета SDK для Python версии 2.

Внимание

Поддержка обучающих моделей компьютерного зрения с помощью автоматизированного ML в Машинном обучении Azure является экспериментальной признаком общедоступной предварительной версии. Некоторые функции могут не поддерживаться или их возможности могут быть ограничены. Дополнительные сведения см. в статье Дополнительные условия использования Предварительных версий Microsoft Azure.

Из этой статьи вы узнаете, как подготовить данные изображений для обучения моделей компьютерного зрения с помощью автоматизированного машинного обучения в Машинном обучение Azure.

Чтобы создать модели для задач компьютерного зрения с помощью AutoML, необходимо перенести помеченные данные изображения в качестве входных данных для обучения модели в виде Машинное обучение Azure TabularDataset.

Чтобы убедиться, что TabularDataset содержит допустимую схему для использования в автоматизированном ML, можно использовать инструмент создания меток данных для Машинного обучения Azure или скрипт преобразования.

Необходимые компоненты

Маркировка данных Машинного обучения Azure

Если у вас нет помеченных данных, можно использовать инструмент создания меток данных Машинного обучение Azure, чтобы помечать изображения вручную. Этот инструмент автоматически создает данные, необходимые для обучения в принятом формате.

Он помогает создавать и отслеживать задачи меток данных для

  • Классификации изображений (с несколькими классами и с несколькими метками)
  • Обнаружения объектов (ограничивающий прямоугольник)
  • Сегментации экземпляров (многоугольник)

Если у вас уже есть проект маркировки данных и вы хотите использовать эти данные, вы можете экспортировать помеченные данные как TabularDataset Машинного обучения Azure, который затем можно использовать непосредственно с автоматизированным ML для обучения моделей компьютерного зрения.

Использование скриптов преобразования

Если у вас имеются помеченные данные в популярных форматах данных компьютерного зрения, например, VOC или COCO, скрипты вспомогательных приложений для создания файлов JSONL для данных обучения и проверки доступны в примерах в записной книжке.

Если данные не соответствуют ранее упомянутым форматам, можно использовать собственный скрипт для создания файлов СТРОК JSON. Чтобы создать файлы строк JSON, используйте схемы, определенные в схеме для JSONL-файлов для экспериментов с образами AutoML.

После преобразования файлов данных в принятый формат JSONL их можно передать в учетную запись хранения в Azure.

Отправка файла JSONL и изображений на хранение

Чтобы использовать данные для автоматизированного машинного обучения, отправьте их в рабочую область Машинного обучения Azure через хранилищеданных. Хранилище данных предоставляет механизм для отправки или загрузки данных для хранения в Azure и взаимодействия с ними из удаленных целевых объектов вычислений.

Отправка всего родительского каталога, состоящего из изображений и файлов JSONL в хранилище данных по умолчанию, которой автоматьически создается при создании рабочей области. Это хранилище данных подключается к контейнеру хранилища BLOB-объектов Azure по умолчанию, созданному в ходе создания рабочей области.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

После отправки данных можно создать Машинное обучение Azure TabularDataset. Затем зарегистрируйте набор данных в рабочей области для дальнейшего использования в качестве входных данных для автоматизированных экспериментов машинного обучения для моделей компьютерного зрения.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Следующие шаги