Поделиться через


Модель визитной карточки аналитики документов

Внимание

Начиная с Document Intelligence версии 4.0 и идти вперед, модель визитной карточки (предварительно созданная бизнес-карта) устарела. Чтобы извлечь данные из форматов визитных карточек, используйте следующее:

Функция версия Идентификатор модели
Модель визитных карточек • v3.1:2023-07-31 (GA)• v3.0:2022-08-31 (GA)

• версии 2.1 (GA)
prebuilt-businessCard

Это содержимое относится к: версии 3.1 (GA)blue-checkmarkcheckmarkcheckmarkПредыдущие версии:версии 3.0blue-checkmarkверсии 2.1

purple-checkmarkЭто содержимое относится к: версия 3.0 (GA)checkmarkcheckmarkПоследние версии:purple-checkmarkверсия 4.0 (GA) версии 3.1Предыдущая версия:синяя галочкаверсия 2.1

[! INCLUDE [относится к версии 2.1].. /(includes/applies-to-v21.md)]

Модель бизнес-карты аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из образов визитных карточек. API анализирует печатные визитные карточки; извлекает ключевые сведения, такие как имя, фамилия, имя компании, адрес электронной почты и номер телефона; и возвращает структурированное представление данных JSON.

Извлечение данных визитной карточки

Визитные карточки — отличный способ представить бизнес или профессионала. Логотип компании, шрифты и фоновые изображения, найденные в визитных карточках, помогают повысить фирменную символику компании и отличить его от других. Применение методов OCR и машинного обучения для автоматизации сканирования визитных карточек — это распространенный сценарий обработки изображений. Корпоративные системы, используемые группами продаж и маркетинга, обычно имеют возможность извлечения данных визитной карточки в пользу своих пользователей.

Пример визитной карточки, обработанной с помощью Document Intelligence Studio

Снимок экрана: образец визитной карточки, проанализированный в Студии аналитики документов.

Пример бизнес-процессов, обработанный с помощью средства аналитики документов

Снимок экрана: образец визитной карточки, проанализированный с помощью средства проверки меток аналитики документов.

Варианты разработки

Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Идентификатор модели
Модель визитных карточек Document Intelligence Studio
REST API
Пакет SDK для C#
Пакет SDK для Python
Пакет SDK для Java
Пакет SDK для JavaScript
prebuilt-businessCard

Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Идентификатор модели
Модель визитных карточек Document Intelligence Studio
REST API
Пакет SDK для C#
Пакет SDK для Python
Пакет SDK для Java
Пакет SDK для JavaScript
prebuilt-businessCard

Аналитика документов версии 2.1 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Модель визитных карточек Средство маркировки аналитики документов
REST API
Пакет SDK для клиентской библиотеки
Контейнер Docker аналитики документов

Попробуйте извлечь данные визитной карточки

Узнайте, как данные, включая имя, название задания, адрес, электронную почту и название компании, извлекаются из визитных карточек. Вам потребуются следующие ресурсы:

  • Подписка Azure — создайте бесплатную учетную запись

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

Примечание.

Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.

  1. На домашней странице Document Intelligence Studio выберите визитные карточки.

  2. Вы можете проанализировать образец визитной карточки или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Средство разработки меток аналитики документов

  1. Перейдите к инструменту аналитики документов.

  2. На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .

    Снимок экрана: операция анализа результатов модели макета.

  3. Выберите тип формы для анализа из раскрывающегося меню.

  4. Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:

  5. В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.

    Снимок экрана с раскрывающимся меню расположения источника.

  6. В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.

  7. В поле ключа вставьте ключ, полученный из ресурса аналитики документов.

    Снимок экрана: раскрывающееся меню

  8. Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.

  9. Просмотрите результаты. Просмотрите пары "ключ-значение", извлеченные, элементы строки, извлеченные текст и обнаруженные таблицы.

    Снимок экрана: операция анализа результатов модели визитной карточки.

Примечание.

Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.

Требования к входным данным

Поддерживаются следующие форматы файлов.

Модель PDF Изображение:
JPEG/JPG, PNG, BMP, TIFF, HEIF
Office:
Word (DOCX), Excel (XLSX), PowerPoint (PPTX), HTML
Читать
Макет
Общий документ
Готовое
Настраиваемая функция извлечения
Настраиваемая классификация
  • Фотографии и сканы: для получения наилучших результатов предоставьте одну чёткую фотографию или высококачественный скан на каждый документ.
  • PDF и TIFF: для PDF и TIFF можно обрабатывать до 2000 страниц. (С подпиской на бесплатный уровень обрабатываются только первые две страницы.)
  • Размер файла: размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ для бесплатного уровня (F0).
  • Размеры изображения: размеры должны находиться в диапазоне от 50 пикселей до 10 000 пикселей x 10 000 пикселей.
  • Блокировки паролей. Если pdf-файлы заблокированы паролем, необходимо удалить блокировку перед отправкой.
  • Высота текста: минимальная высота извлеченного текста составляет 12 пикселей для изображения 1024 x 768 пикселей. Это измерение соответствует примерно тексту размером 8 пунктов при 150 точках на дюйм.
  • Обучение пользовательской модели: максимальное количество страниц для обучающих данных составляет 500 для пользовательской модели шаблона и 50 000 для пользовательской нейронной модели.
  • Обучение пользовательской модели извлечения: общий размер обучающих данных составляет 50 МБ для модели шаблона и 1 ГБ для нейронной модели.
  • Обучение пользовательской модели классификации: общий размер обучающих данных составляет 1 ГБ, не более 10 000 страниц. Для 2024-11-30 (GA) общий размер обучающих данных составляет 2 ГБ с максимум 10 000 страниц.
  • Типы файлов Office (DOCX, XLSX, PPTX): максимальная длина строки составляет 8 миллионов символов.
  • Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF
  • Pdf и TIFF обрабатываются до 2000 страниц. Для подписчиков уровня "Бесплатный" обрабатываются только две первые страницы.
  • Размер файла должен быть меньше 50 МБ и размер по крайней мере 50 x 50 пикселей и не более 10 000 x 10 000 пикселей.

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см . на странице поддержки языка предварительно созданной модели.

Извлечение полей

Поддерживаемые поля извлечения документов см . на странице схемы модели визитных карточек в нашем примере репозитория GitHub.

Извлеченные поля

Имя. Тип Описание Текст
ContactNames массив объектов Имя контакта, извлеченное из визитной карточки [{ "FirstName": "John" "LastName", : "Doe" }]
FirstName строка Имя контакта "John"
LastName строка Фамилия контакта "Doe"
CompanyNames массив строк Название компании, извлеченное из визитной карточки ["Contoso"]
Отделы массив строк Отдел или организация контакта ["R&D"]
JobTitles массив строк Должность контакта ["Инженер программного обеспечения"]
Сообщения электронной почты массив строк Контактная электронная почта, извлеченная из визитной карточки ["johndoe@contoso.com"]
Веб-сайты массив строк Веб-сайт извлеченный из визитной карточки ["https://www.contoso.com"]
Адреса массив строк Адрес, извлеченный из визитной карточки ["123 Main Street, Редмонд, Вашингтон 98052"]
MobilePhones Массив номеров телефонов Номер мобильного телефона, извлеченный из визитной карточки ["+19876543210"]
Факсы Массив номеров телефонов Номер телефона факса, извлеченный из визитной карточки ["+19876543211"]
WorkPhones Массив номеров телефонов Номер служебного телефона, извлеченный из визитной карточки ["+19876543231"]
OtherPhones Массив номеров телефонов Другой номер телефона, извлеченный с визитной карточки ["+19876543233"]

Поддерживаемые языковые стандарты

Предварительно созданные визитные карточки версии 2.1 поддерживают следующие языковые стандарты:

  • en-us
  • en-au
  • en-ca
  • en-gb
  • en-in

Руководство по миграции и REST API версии 3.1

  • Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию версии 3.0 в приложениях и рабочих процессах.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.