Задачи и методы компьютерного зрения

Завершено

Замечание

Дополнительные сведения см. на вкладке "Текст и изображения ".

Термин "компьютерное зрение" относится к различным задачам и методам, в которых программное обеспечение ИИ обрабатывает визуальные данные; обычно из изображений, видео или потоковой камеры. Компьютерное зрение является хорошо установленным полем ИИ, а методы, используемые для извлечения информации из визуального ввода, значительно развивались в течение многих лет.

Классификация изображений

Одним из старейших решений компьютерного зрения является метод классификации изображений, в котором модель, которая была обучена с большим количеством изображений, используется для прогнозирования текстовой метки на основе содержимого изображения.

Например, предположим, что продуктовый магазин хочет реализовать интеллектуальную систему получения, которая идентифицирует продукты автоматически. Например, клиент может разместить фрукты или овощи на весах на кассе, а приложение с ИИ, подключенное к камере, может автоматически определить типы продукции (яблоко, апельсин, банан и т. д.) и списывать соответствующую сумму в зависимости от их веса. Для работы этого решения модель должна быть обучена на большом объеме изображений, каждая из которых обозначена правильным именем. Результатом является модель, которая может использовать визуальные функции изображения для прогнозирования его основной темы.

Фотографии апельсина, яблока и банана.

Обнаружение объектов

Предположим, что продуктовый магазин хочет более сложную систему, в которой касса может сканировать несколько товаров и идентифицировать каждый из них. Распространенный подход к этой проблеме называется обнаружением объектов. Модели обнаружения объектов проверяют несколько регионов на изображении, чтобы найти отдельные объекты и их расположения. Результаты прогнозирования модели включают обнаруженные объекты и конкретные области изображения, в которых они присутствуют, указанные посредством координат ограничивающей рамки.

Фотография апельсина, яблока и банана с ограничивающими рамками.

Семантическая сегментация

Другой более сложный способ обнаружения объектов на изображении называется "семантическая сегментация". В этом подходе модель обучена находить объекты и классифицировать отдельные пиксели на изображении на основе объекта, к которому они относятся. Результатом этого процесса является гораздо более точное прогнозирование расположения объектов на изображении.

Фотография апельсина, яблока и банана с наложенными масками.

Анализ контекстного изображения

Последние модели многомодального компьютерного зрения обучены находить контекстные связи между объектами в изображениях и тексте, описывающим их. Результатом является возможность семантической интерпретации изображения для определения объектов и действий, которые он изображает; и создайте соответствующие описания или предложите соответствующие теги.

Фотография человека, еющего яблоко.

Человек ест яблоко.