Быстрый запуск: создание модели классификации изображений с помощью портала Custom Vision

2025-04-10

В этом кратком руководстве объясняется, как использовать веб-портал Пользовательское визуальное распознавание для создания модели классификации изображений. Созданную модель можно протестировать с использованием новых изображений, а затем интегрировать в собственное приложение для распознавания изображений.

Предварительные условия

Подписка Azure. Вы можете создать бесплатную учетную запись.
Набор изображений для обучения модели классификации. Можно использовать набор примеров изображений в GitHub. Кроме того, вы можете выбрать собственные изображения, используя следующие советы.
Поддерживаемый веб-браузер.

Создайте ресурсы Custom Vision

Для использования службы Custom Vision необходимо создать учебные и прогнозные ресурсы в Azure. В портале Azure используйте страницу "Создание Custom Vision" для создания ресурсов обучения и прогнозирования.

Создание нового проекта

Перейдите на веб-страницу Custom Vision, а затем войдите в нее с той же учетной записью, которую вы использовали для входа в портал Azure.

Снимок экрана, показывающий страницу входа в Custom Vision.

Для создания первого проекта щелкните Новый проект. Откроется диалоговое окно "Создание проекта ".
Введите имя и описание проекта. Затем выберите ресурс обучения Custom Vision. Если учетная запись входа связана с учетной записью Azure, раскрывающийся список ресурсов отображает все совместимые ресурсы Azure.

Примечание.

Если ресурс недоступен, убедитесь, что вы вошли в customvision.ai с той же учетной записью, которую вы использовали для входа на портал Azure. Также убедитесь, что вы выбрали тот же каталог на веб-сайте Пользовательского визуального распознавания, что и каталог на портале Azure, где находятся ресурсы Пользовательского визуального распознавания. На обоих сайтах можно выбрать каталог в раскрывающемся меню учетной записи в правом верхнем углу экрана.
Выберите Classification (Классификация) в поле Project Types (Типы проектов). Затем в разделе Classification Types (Типы классификации) выберите вариант Multilabel (По нескольким меткам) или Multiclass (По нескольким классам) в зависимости от ситуации. Многометочная классификация присваивает любое количество тегов изображению (ноль или более), а многоклассовая сортировка распределяет изображения по отдельным категориям (каждое изображение, которое вы подаете, распределяется по наиболее вероятному тегу). Можно изменить тип классификации позже, если вы хотите.

Затем выберите один из доступных доменов. Каждый домен оптимизирует модель для определенных типов изображений, как описано в следующей таблице. Если потребуется, вы сможете изменить этот домен позднее.

Домен	Цель
Общие вопросы	Рассчитан на самые разные задачи классификации изображений. Если не подходит ни один из других доменов или вы не уверены, какой домен выбрать, выберите универсальный домен.
Пища	Оптимизирован для фотографий блюд, как они выглядят в меню ресторана. Если вы хотите классифицировать фотографии отдельных фруктов или овощей, используйте домен Food.
Достопримечательности	Рассчитан на распознавание естественных и искусственных ориентиров. Этот домен работает лучше всего, когда ориентир четко виден на фотографии. Этот домен работает даже в том случае, если достопримечательность слегка заслоняют люди перед ней.
Розничная торговля	Рассчитан на изображения из каталогов товаров и торговых веб-сайтов. Если требуется высокая точность при распознавании таких объектов, как платья, брюки и рубашки, следует использовать этот домен.
Компактные домены	Оптимизированы для ограничений классификации в режиме реального времени на мобильных устройствах. Модели, созданные доменами Compact, можно экспортировать для локального запуска.

И наконец, щелкните Create project (Создать проект).

Выбор обучающих изображений

Как минимум, следует использовать не менее 30 изображений на тег в начальном наборе обучения. Вы также должны собрать несколько дополнительных изображений, чтобы протестировать модель после обучения.

Чтобы обучение модели было эффективным, используйте разнообразные изображения. Выберите изображения, которые различаются по следующим критериям:

угол обзора камеры;
освещение;
фон
стиль изображения;
отдельные/групповые субъекты
размер
тип

Также убедитесь, что все обучающие изображения соответствуют следующим критериям:

должен быть в формате .jpg, .png, .bmp или .gif
размер не превышает 6 МБ (4 МБ для изображений прогнозирования)
не менее 256 пикселей на самом коротком крае. Все изображения меньше 256 пикселей автоматически масштабируются службой Custom Vision.

Отправка и снабжение тегами изображений

Вы можете загрузить и вручную пометить изображения для того чтобы помочь обучить классификатор.

Чтобы добавить изображения, последовательно выберите элементы Add images (Добавить изображения) и Browse local files (Обзор локальных файлов). Выберите Открыть, чтобы переместить теги. Выбор тега применяется ко всей группе отправленных изображений, поэтому проще отправлять изображения в отдельных группах в соответствии с примененных тегами. Вы также можете изменить теги для отдельных изображений после их отправки.
Чтобы создать тег, введите произвольный текст в поле My Tags (Мои теги) и нажмите клавишу ВВОД. Если тег уже существует, он отображается в раскрывающемся меню. В проекте с классификацией по нескольким меткам вы можете добавить к каждому изображению более одного тега, а в проекте с классификацией по нескольким классам — только один. Чтобы завершить отправку изображений, нажмите кнопку Upload [number] files (Отправить файлы ([число])).
Нажмите кнопку "Готово" после отправки изображений.

Чтобы отправить новый набор изображений, прокрутите страницу наверх и повторите все шаги.

Обучение классификатора

Для обучения классификатора нажмите кнопку Train. Классификатор создаст на основе всех уже полученных изображений модель, которая идентифицирует визуальные характеристики каждого тега. Этот процесс может занять несколько минут.

Снимок экрана кнопки 'Поезд' в правом верхнем углу панели инструментов заголовка страницы.

Процесс обучения обычно занимает пару минут. В течение этого времени информация о процессе обучения отображается на вкладке Производительность.

Снимок экрана: окно браузера с подробными сведениями о обучении в главном разделе.

Оценка классификатора

После завершения обучения производительность модели оценивается и отображается. Служба Custom Vision использует изображения, которые вы отправили для обучения, для расчета точности и полноты. Точность и полнота — это два разных показателя эффективности классификатора.

Точность обозначает долю правильно определенных классов. Например, если модель определила наличие собак на 100 изображениях, из которых на 99 действительно есть собаки, точность этой модели составляет 99 %.
Полнота обозначает долю истинных классификаций, которые были правильно определены. Например, если в наборе данных действительно было 100 изображений яблок и модель определила 80 из них как яблоки, показатель полноты составит 80 %.

Снимок экрана результатов обучения, показывающий общую точность и полноту, а также точность и полноту для каждого тега в классификаторе.

Порог вероятности

Обратите внимание на ползунок уровня порога вероятности на левой панели вкладки «Производительность». Это уровень уверенности, необходимый для того, чтобы прогноз считался правильным (в целях вычисления точности и полноты).

Когда вы интерпретируете вызовы прогнозирования с высоким порогом вероятности, они обычно возвращают результаты с высокой точностью, обеспеченной за счет отзыва, — обнаруженные классификации верны, но многие из них не удается обнаружить. Низкий порог вероятности оказывает противоположное воздействие — обнаруживается большинство фактических классификаций, но в этом наборе больше ложноположительных результатов. Учитывайте это при настройке порога вероятности в соответствии с потребностями для конкретного проекта. Позже, когда вы получите результаты прогнозирования на стороне клиента, вам нужно будет задать используемое здесь значение порога вероятности.

Управление итерациями обучения

При каждом обучении классификатора создается новая итерация с обновленными метриками производительности. Все итерации можно просмотреть на левой панели вкладки "Производительность ". Вы также найдете кнопку "Удалить ", которую можно использовать для удаления итерации, если она устарела. При удалении итерации удаляются только связанные с ней изображения.

Сведения о программном доступе к обученным моделям см. в статье "Вызов API прогнозирования".

Следующий шаг

В этом кратком руководстве объясняется, как создать и обучить модель классификации изображений на веб-портале Пользовательского визуального распознавания. Далее узнайте больше об итеративном процессе улучшения вашей модели.

Тестирование и переобучение модели

Что такое Пользовательское визуальное распознавание?