Модель бизнес-карта аналитики документов

Внимание

Начиная с Document Intelligence версии 4.0 (предварительная версия) и идя вперед, модель бизнес-карта (предварительно созданная бизнес-карта) устарела. Чтобы извлечь данные из бизнес-карта форматов, используйте следующее:

Функция версия Model ID
Модель визитных карточек • v3.1:2023-07-31 (GA)• v3.0:2022-08-31 (GA)

• версии 2.1 (GA)
prebuilt-businessCard

Это содержимое относится к:v3.1 (GA) | Предыдущие версии:флажоксиний проверка markv3.0синий проверка markверсии 2.1

Это содержимое относится к:v3.0 (GA) | Последние версии:фиолетовый проверка markv4.0 (предварительная версия)фиолетовый проверка mark3.1 | Предыдущая версия:флажоксиний проверка markv2.1

Это содержимое относится к:v2.1 Последняя версиясиний проверка mark:флажокv4.0 (предварительная версия) |

Модель бизнес-карта аналитики документов объединяет мощные возможности оптического распознавания символов (OCR) с моделями глубокого обучения для анализа и извлечения данных из бизнес-карта изображений. API анализирует печатные визитные карточки, извлекает из них ключевые сведения, такие как имя, фамилия, название компании, адрес электронной почты и номер телефона, после чего возвращает структурированное представление данных в формате JSON.

Извлечение данных бизнес-карта

Бизнес-карта — отличный способ представлять бизнес или профессионала. Логотип компании, шрифты и фоновые изображения, найденные в бизнес-карта, помогают повысить фирменную символику компании и отличить ее от других. Применение методов OCR и машинного обучения для автоматизации сканирования бизнес-карта — это распространенный сценарий обработки изображений. Корпоративные системы, используемые командами по продажам и маркетингу, обычно имеют возможности извлечения данных бизнес-карта в пользу своих пользователей.

Пример бизнес-карта, обработанных с помощью Document Intelligence Studio

Снимок экрана: пример бизнес-карта, проанализированный в Студии аналитики документов.

Пример бизнес-процессов, обработанный с помощью средства аналитики документов

Снимок экрана: пример бизнес-карта, проанализированный с помощью средства создания примеров меток аналитики документов.

Варианты разработки

Аналитика документов версии 3.1:2023-07-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель визитных карточек Document Intelligence Studio
REST API
Пакет SDK для C#
Пакет SDK для Python
Пакет SDK для Java
Пакет SDK для JavaScript
prebuilt-businessCard

Аналитика документов версии 3.0:2022-08-31 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель визитных карточек Document Intelligence Studio
REST API
Пакет SDK для C#
Пакет SDK для Python
Пакет SDK для Java
Пакет SDK для JavaScript
prebuilt-businessCard

Аналитика документов версии 2.1 (GA) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Модель визитных карточек Средство маркировки аналитики документов
REST API
Пакет SDK для клиентской библиотеки
Контейнер Docker аналитики документов

Попробуйте извлечь данные бизнес-карта

Узнайте, как данные, включая имя, название задания, адрес, электронную почту и название компании, извлекаются из бизнес-карта. Вам потребуются следующие ресурсы:

  • Подписка Azure — создайте бесплатную учетную запись

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Document Intelligence Studio

Примечание.

Document Intelligence Studio доступен с API версии 3.1 и версии 3.0.

  1. На домашней странице Document Intelligence Studio выберите бизнес-карта.

  2. Вы можете проанализировать пример бизнес-карта или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Средство разработки меток аналитики документов

  1. Перейдите к инструменту аналитики документов.

  2. На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .

    Снимок экрана: операция анализа результатов модели макета.

  3. Выберите тип формы для анализа из раскрывающегося меню.

  4. Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:

  5. В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.

    Снимок экрана с раскрывающимся меню расположения источника.

  6. В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.

  7. В поле ключа вставьте ключ, полученный из ресурса аналитики документов.

    Снимок экрана: раскрывающееся меню

  8. Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.

  9. Просмотрите результаты, обращая внимание на извлеченные пары "ключ-значение", элементы строк, выделенный извлеченный текст и обнаруженные таблицы.

    Снимок экрана: бизнес-карта модель анализа результатов.

Примечание.

Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.

Требования к входным данным

  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTML
    Читать
    Макет ✔ (2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-02-29-preview)
  • В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).

  • Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о 8точке в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

  • Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF
  • Для документов формата PDF и TIFF обрабатывается до 2000 страниц. Для подписчиков уровня "Бесплатный" обрабатываются только две первые страницы.
  • Размер файла должен быть меньше 50 МБ и размеров не менее 50 x 50 пикселей и не более 10 000 x 10 000 пикселей.

Поддерживаемые языки и языковые стандарты

Полный список поддерживаемых языков см. на странице поддержки языков.

Извлечение полей

Имя. Тип Описание Стандартизованные выходные данные
ContactNames Массив объектов Имя контакта
FirstName Строка Имя контакта
LastName Строка Фамилия контакта
CompanyNames Массив строк Названия организаций
Отделы Массив строк Отделы или организации контакта
JobTitles Массив строк Список должностей контакта
Сообщения электронной почты Массив строк Адрес электронной почты контакта
Веб-сайты Массив строк Веб-сайты организации
Адреса Массив строк Адреса, извлеченные из визитной карточки
MobilePhones Массив номеров телефонов Номера мобильных телефонов, извлеченные из визитной карточки +1 xxx xxx xxxx
Факсы Массив номеров телефонов Номера факсов, извлеченные из визитной карточки +1 xxx xxx xxxx
WorkPhones Массив номеров телефонов Номера служебных телефонов, извлеченные из визитной карточки +1 xxx xxx xxxx
OtherPhones Массив номеров телефонов Другие номера телефонов, извлеченные из визитной карточки +1 xxx xxx xxxx

Извлеченные поля

Имя. Тип Описание Текст
ContactNames массив объектов Имя контакта, извлеченное из визитной карточки [{ "FirstName": "John" "LastName", : "Doe" }]
FirstName строка Имя контакта "John"
LastName строка Фамилия контакта "Doe"
CompanyNames массив строк Название компании, извлеченное из визитной карточки ["Contoso"]
Отделы массив строк Отдел или организация контакта ["R&D"]
JobTitles массив строк Должность контакта ["Software Engineer"]
Сообщения электронной почты массив строк Контактная электронная почта, извлеченная из визитной карточки ["johndoe@contoso.com"]
Веб-сайты массив строк Веб-сайт извлеченный из визитной карточки ["https://www.contoso.com"]
Адреса массив строк Адрес, извлеченный из визитной карточки ["123 Main Street, Redmond, WA 98052"]
MobilePhones Массив номеров телефонов Номер мобильного телефона, извлеченный из визитной карточки ["+19876543210"]
Факсы Массив номеров телефонов Номер телефона факса, извлеченный из визитной карточки ["+19876543211"]
WorkPhones Массив номеров телефонов Номер служебного телефона, извлеченный из визитной карточки ["+19876543231"]
OtherPhones Массив номеров телефонов Другой номер телефона, извлеченный с визитной карточки ["+19876543233"]

Поддерживаемые языковые стандарты

Предварительно созданные бизнес-карта версии 2.1 поддерживают следующие языковые стандарты:

  • en-us
  • en-au
  • en-ca
  • en-gb
  • en-in

Руководство по миграции и REST API версии 3.1

  • Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию версии 3.0 в приложениях и рабочих процессах.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.