Начало работы с Azure AI Vision

Завершено

Способность компьютерных систем обрабатывать написанный и печатный текст — это область ИИ, в которой компьютерное зрение пересекается с обработкой естественного языка. Для чтения текста необходимы возможности визуального распознавания, а затем возможности обработки естественного языка имеют смысл.

OCR является основой обработки текста в изображениях и использует модели машинного обучения, которые обучены распознавать отдельные фигуры как буквы, цифры, знаки препинания или другие элементы текста. На раннем этапе значительная часть усилий по реализации такого рода возможностей предпринималась почтовыми службами для обеспечения автоматической сортировки почты по почтовым индексам. С тех пор состояние искусства для чтения текста перемещено, и у нас есть модели, которые обнаруживают печатный или рукописный текст на изображении и считывают его по строкам и словам по слову.

A screenshot of an envelope showing a handwritten address with typed text next to it.

Подсистема OCR визуального распознавания Azure ИИ

Служба "Визуальное распознавание ИИ Azure" имеет возможность извлекать текст, доступный для машинного чтения, из изображений. API чтения Визуального распознавания ИИ Azure — это обработчик OCR, который обеспечивает извлечение текста из изображений, PDF-файлов и TIFF-файлов. OCR для изображений оптимизирован для общих недокументированных изображений, что упрощает внедрение OCR в сценарии взаимодействия с пользователем.

API чтения, также известный как обработчик OCR для чтения, использует последние модели распознавания и оптимизирован для изображений с большим количеством текста или имеет значительный визуальный шум. Он может автоматически определить правильную модель распознавания, которая будет использоваться с учетом количества строк текста, изображений, включающих текст и рукописный ввод.

Обработчик OCR принимает файл изображения и определяет ограничивающие прямоугольники или координаты, где элементы находятся в изображении. В OCR модель определяет ограничивающие прямоугольники вокруг всего, что представляется текстом на изображении.

Вызов API чтения возвращает результаты, расположенные в следующей иерархии:

  • Страницы — одна для каждой страницы текста, включая сведения о размере и ориентации страницы.
  • Строки — строки текста на странице.
  • Слова — слова в строке текста, включая координаты ограничивающего поля и сам текст.

Каждая строка и каждое слово включают в себя координаты ограничивающего прямоугольника, указывающие его расположение на странице.

A screenshot showing bounding boxes around the page, line, and word of a letter.