Модель документа аналитики документов

Внимание

  • Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
  • Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
  • Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
  • Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
  • Восточная часть США
  • Западная часть США2
  • Западная Европа

Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:синий проверка markфлажокv3.1 (GA)v3.0 (GA)синий проверка markсиний проверка markv2.1 (GA)

Это содержимое относится к:v3.1 (GA)Последняя версияфиолетовый проверка mark:v4.0 (предварительная версия) | | Предыдущие версии:флажоксиний проверка markv3.0синий проверка markверсии 2.1

Это содержимое относится к:v3.0 (GA) | Последние версии:фиолетовый проверка markv4.0 (предварительная версия)фиолетовый проверка mark3.1 | Предыдущая версия:флажоксиний проверка markv2.1

Это содержимое относится к:v2.1 Последняя версиясиний проверка mark:флажокv4.0 (предварительная версия) |

Модель документа удостоверений аналитики документов (ID) объединяет оптическое распознавание символов (OCR) с моделями глубокого обучения для анализа и извлечения ключевых сведений из документов удостоверений. API анализирует документы удостоверений (включая следующие) и возвращает структурированное представление данных JSON:

  • Паспортная книга, паспорт карта по всему миру
  • Водительская лицензия от США, Европы, Индии, Канады и Австралии
  • США идентификационные карта, разрешение на проживание (зеленый карта), социальное обеспечение карта, военный идентификатор
  • Европейские карта идентификации, разрешения на проживание
  • Индия PAN карта, Aadhaar карта
  • Идентификация Канады карта, разрешение на проживание (кленовые карта)
  • Фото Австралии карта, идентификатор ключа-прохода (включая цифровую версию)

Аналитика документов может анализировать и извлекать информацию из документов идентификации, выданных правительством, с помощью предварительно созданной модели идентификаторов. Он сочетает в себе мощные возможности оптического распознавания символов (OCR) с возможностью распознавания идентификаторов, чтобы извлечь ключевые сведения из международных паспортов и водительских прав США (все 50 штатов и округ Колумбия). API идентификаторов извлекает ключевые сведения из этих документов удостоверений, таких как имя, фамилия, дата рождения, номер документа и многое другое. Этот API доступен в аналитике документов версии 2.1 как облачная служба.

Обработка документов удостоверений

Обработка документов удостоверений включает извлечение данных из документов удостоверений вручную или с помощью технологии на основе OCR. Обработка документов идентификатора является важным шагом в любой бизнес-операции, требующей подтверждения удостоверения. Примеры включают проверку клиентов в банках и других финансовых учреждениях, ипотечных приложениях, медицинских визитах, обработке утверждений, индустрии гостеприимства и т. д. Лица предоставляют некоторые доказательства их личности с помощью водительских лицензий, паспортов и других аналогичных документов, чтобы бизнес смог эффективно проверить их перед предоставлением услуг и преимуществ.

Пример лицензии водителя США, обработанный с помощью Document Intelligence Studio

Изображение с примером водительского удостоверения.

Извлечение данных

Предварительно созданная служба идентификаторов извлекает ключевые значения из международных паспортов и водительских прав США и возвращает их в организованном структурированном ответе JSON.

Водительские права

Пример водительских прав

Паспорт

Пример паспорта

Варианты разработки

Аналитика документов версии 4.0 (2024-02-29-preview, 2023-10-31-preview) поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель документа идентификатора Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
prebuilt-idDocument

Аналитика документов версии 3.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель документа идентификатора Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
prebuilt-idDocument

Аналитика документов версии 3.0 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы Model ID
Модель документа идентификатора Аналитика
документов• REST API
• ПАКЕТ SDK
для C#
• Пакет SDK для Python• Пакет SDK для Java • Пакет SDK
java для JavaScript
prebuilt-idDocument

Аналитика документов версии 2.1 поддерживает следующие средства, приложения и библиотеки:

Функция Ресурсы
Модель документа идентификатора Средство
аналитики документов • REST API
пакет SDK
для клиентской библиотеки • Контейнер Docker аналитики документов

Требования к входным данным

  • Для получения наилучших результатов предоставьте одну четкую фотографию или скан-копию документа высокого качества.

  • Поддерживаемые форматы файлов:

    Модель PDF Изображение:
    JPEG/JPG, PNG, BMP, TIFF, HEIF
    Microsoft Office:
    Word (DOCX), Excel (XLSX), PowerPoint (PPTX) и HTML
    Читать
    Макет ✔ (2024-02-29-preview, 2023-10-31-preview)
    Документ общего назначения
    Готовое
    Настраиваемая функция извлечения
    Настраиваемая классификация ✔ (2024-02-29-preview)
  • В файлах формата PDF и TIFF обрабатывается до 2000 страниц (с подпиской уровня "Бесплатный" обрабатываются только первые две страницы).

  • Размер файла для анализа документов составляет 500 МБ для платного уровня (S0) и 4 МБ бесплатного уровня (F0).

  • Изображения должны иметь размеры в пределах от 50 x 50 до 10 000 x 10 000 пикселей.

  • Если PDF-файлы заблокированы паролем, перед отправкой необходимо снять блокировку.

  • Минимальная высота извлекаемого текста составляет 12 пикселей для изображения размером 1024 x 768 пикселей. Это измерение соответствует тексту о 8точке в 150 точек на дюйм (DPI).

  • Для обучения пользовательской модели максимальный объем обучающих данных составляет 500 страниц для пользовательской модели шаблона и 50 000 страниц для пользовательской нейронной модели.

    • Для обучения пользовательской модели извлечения общий размер обучающих данных составляет 50 МБ для модели шаблона и 1G-МБ для нейронной модели.

    • Для обучения пользовательской модели классификации общий размер обучающих данных составляет 1GB не более 10 000 страниц.

  • Поддерживаемые форматы файлов: JPEG, PNG, PDF и TIFF.

  • Поддерживаемо количество страниц для PDF-файлов и TIFF: до 2000 страниц или только первых двух страниц для подписчиков бесплатного уровня.

  • Поддерживаемый размер файла: менее 50 МБ TOTAL; минимальный пиксель: 50 x 50 пикселей; максимум 10 000 x 10 000 пикселей.

Извлечение данных модели документов идентификатора

Извлеките данные, включая имя, дату рождения и дату окончания срока действия, из документов идентификатора. Вам потребуются следующие ресурсы:

  • Подписка Azure — ее можно создать бесплатно.

  • Экземпляр аналитики документов в портал Azure. Вы можете использовать ценовую категорию "Бесплатный" (F0), чтобы поработать со службой. После развертывания ресурса выберите Перейти к ресурсу, чтобы получить ключ и конечную точку.

Снимок экрана: расположение ключей и конечной точки на портале Azure.

Примечание.

Document Intelligence Studio доступна с API версии 3.1 и версии 3.0 и более поздними версиями.

  1. На домашней странице Document Intelligence Studio выберите документы удостоверений.

  2. Вы можете проанализировать пример счета или отправить собственные файлы.

  3. Нажмите кнопку "Выполнить анализ", а при необходимости настройте параметры анализа:

    Снимок экрана: кнопки

Средство разработки меток аналитики документов

  1. Перейдите к инструменту аналитики документов.

  2. На домашней странице примера инструмента выберите предварительно созданную модель, чтобы получить плитку данных .

    Снимок экрана: операция анализа результатов модели макета.

  3. Выберите тип формы для анализа из раскрывающегося меню.

  4. Выберите URL-адрес для файла, который необходимо проанализировать, в одном из следующих вариантов:

  5. В поле Источник выберите URL-адрес в раскрывающемся меню, вставьте выбранный URL-адрес и нажмите кнопку Получить.

    Снимок экрана с раскрывающимся меню расположения источника.

  6. В поле конечной точки службы аналитики документов вставьте конечную точку, полученную в подписке Аналитики документов.

  7. В поле ключа вставьте ключ, полученный из ресурса аналитики документов.

    Снимок экрана: раскрывающееся меню типа документа.

  8. Щелкните элемент Run analysis (Выполнить анализ). Средство аналитики документов вызывает предварительно созданный API анализа и анализирует документ.

  9. Просмотрите результаты. Просмотрите пары "ключ-значение", извлеченные, элементы строки, извлеченные текст и обнаруженные таблицы.

    Снимок экрана: операция анализа результатов модели удостоверений.

  10. Скачайте выходной файл в формате JSON для просмотра подробных результатов.

    • Узел readResults содержит каждую строку текста и соответствующее расположение ограничивающего прямоугольника на странице.
    • Узел selectionMarks отображает каждую метку выбора (проверка box, переключатель) и указывает, выбрано ли его состояние или не выбрано.
    • В разделе pageResults содержатся извлеченные таблицы. Для каждой таблицы аналитика документов извлекает текст, индекс строки и столбца, диапазон строк и столбцов, ограничивающее поле и многое другое.
    • Поле documentResults содержит сведения о парах "ключ-значение" и об элементах строк для наиболее релевантных частей документа.

Примечание.

Пример средства маркировки данных не поддерживает файлы в формате BMP. Это ограничение средства, а не службы аналитики документов.

Поддерживаемые типы документов

Область/регион Типы документов
По всему миру Passport Book, Passport Card
Соединенные Штаты Водительская лицензия, идентификационный карточка, разрешение на проживание (зеленый карта), карточка социального страхования, военный идентификатор
Европа Водительское удостоверение, идентификационный карточка, разрешение на проживание
Индия Водительские лицензии, PAN Card, Aadhaar Card
Канада Водительская лицензия, идентификационный карточка, разрешение на проживание (карта maple)
Австралия Водительская лицензия, фотокарта, идентификатор ключа (включая цифровую версию)

Извлечение полей

Ниже приведены поля, извлеченные для каждого типа документа. Модель prebuilt-idDocument идентификатора аналитики документов извлекает следующие поля в documents.*.fields. Выходные данные json включают весь извлеченный текст в документах, словах, строках и стилях.

idDocument.driverLicense

Поле Тип Описание Пример
CountryRegion countryRegion Код страны или региона USA
Region string Область, республика, край, округ Вашингтон
DocumentNumber string Номер лицензии водителя WDLABCD456DG
DocumentDiscriminator string Дискриминационный документ водительской лицензии 12645646464554646456464544
FirstName string Заданное имя и средний начальный, если применимо ЛИАМ Р.
LastName string Surname ТЭЛБОТ
Address address Адрес 123 STREET ADDRESS YOUR CITY WA 99999-1234
DateOfBirth date Дата рождения 06.01.1958
DateOfExpiration date Дата окончания срока действия 12.08.2020
DateOfIssue date Дата выпуска 08/12/2012
EyeColor string Цвет глаз Синий
HairColor string Цвет волос Коричневый
Height string Height 5'11"
Weight string Вес 185LB
Sex string Пол Пн.
Endorsements string Подтверждения L
Restrictions string Ограничения Б
VehicleClassifications string Классификация транспортных средств D

idDocument.passport

Поле Тип Описание Пример
DocumentNumber string Номер паспорта 340020013
FirstName string Заданное имя и средний начальный, если применимо ДЖЕННИФЕР
MiddleName string Имя между заданным именем и фамилией РЕЙЕС
LastName string Surname БРУКС
Aliases array
Aliases.* string Другое название MAT LIN
DateOfBirth date Дата рождения 01.01.1980
DateOfExpiration date Дата окончания срока действия 2019-05-05
DateOfIssue date Дата выпуска 2014-05-06
Sex string Пол F
CountryRegion countryRegion Выдача страны или организации USA
DocumentType string Document type P
Nationality countryRegion Национальность USA
PlaceOfBirth string Место рождения МАССАЧУСЕТС, США
PlaceOfIssue string Место проблемы ЛИССАБОН
IssuingAuthority string Инстанцию Государственный департамент США
PersonalNumber string Личный идентификатор. № A234567893
MachineReadableZone object Зоны, доступные для чтения компьютера (MRZ) P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816
MachineReadableZone.FirstName string Заданное имя и средний начальный, если применимо ДЖЕННИФЕР
MachineReadableZone.LastName string Surname БРУКС
MachineReadableZone.DocumentNumber string Номер паспорта 340020013
MachineReadableZone.CountryRegion countryRegion Выдача страны или организации USA
MachineReadableZone.Nationality countryRegion Национальность USA
MachineReadableZone.DateOfBirth date Дата рождения 01.01.1980
MachineReadableZone.DateOfExpiration date Дата окончания срока действия 2019-05-05
MachineReadableZone.Sex string Пол F

idDocument.nationalIdentityCard

Поле Тип Описание Пример
CountryRegion countryRegion Код страны или региона USA
Region string Область, республика, край, округ Вашингтон
DocumentNumber string Номер национального удостоверения карта WDLABCD456DG
DocumentDiscriminator string Национальное удостоверение карта документ дискриминатор 12645646464554646456464544
FirstName string Заданное имя и средний начальный, если применимо ЛИАМ Р.
LastName string Surname ТЭЛБОТ
Address address Адрес 123 STREET ADDRESS YOUR CITY WA 99999-1234
DateOfBirth date Дата рождения 06.01.1958
DateOfExpiration date Дата окончания срока действия 12.08.2020
DateOfIssue date Дата выпуска 08/12/2012
EyeColor string Цвет глаз СИНИЙ
HairColor string Цвет волос КОРИЧНЕВЫЙ
Height string Height 5'11"
Weight string Вес 185LB
Sex string Пол Пн.

idDocument.residencePermit

Поле Тип Описание Пример
CountryRegion countryRegion Код страны или региона USA
DocumentNumber string Номер разрешения на проживание WDLABCD456DG
FirstName string Заданное имя и средний начальный, если применимо ЛИАМ Р.
LastName string Surname ТЭЛБОТ
DateOfBirth date Дата рождения 06.01.1958
DateOfExpiration date Дата окончания срока действия 12.08.2020
DateOfIssue date Дата выпуска 08/12/2012
Sex string Пол Пн.
PlaceOfBirth string Место рождения Германия
Category string Категория разрешений DV2
Address string Адрес 123 STREET ADDRESS YOUR CITY WA 99999-1234

idDocument.usSocialSecurityCard

Поле Тип Описание Пример
DocumentNumber string Номер карта социального страхования WDLABCD456DG
FirstName string Заданное имя и средний начальный, если применимо ЛИАМ Р.
LastName string Surname ТЭЛБОТ
DateOfIssue date Дата выпуска 08/12/2012

idDocument

Поле Тип Описание Пример
Address address Адрес 123 STREET ADDRESS YOUR CITY WA 99999-1234
DocumentNumber string Номер лицензии водителя WDLABCD456DG
FirstName string Заданное имя и средний начальный, если применимо ЛИАМ Р.
LastName string Surname ТЭЛБОТ
DateOfBirth date Дата рождения 06.01.1958
DateOfExpiration date Дата окончания срока действия 12.08.2020

Поддерживаемые типы документов

Модель документов id в настоящее время поддерживает лицензии водителя США и биография графическую страницу из международных паспортов (за исключением виз и других документов для путешествий).

Извлеченные поля

Имя. Тип Описание Значение
Country country Код страны соответствует стандарту ISO 3166 "USA"
dateOfBirth Дата Дата рождения в формате ГГГГ-ММ-ДД "1980-01-01"
DateOfExpiration Дата Дата окончания срока действия в формате ГГГГ-ММ-ДД "2019-05-05"
DocumentNumber строка Соответствующий номер паспорта, номер водительских прав и т. д. "340020013"
FirstName строка Извлеченные имя и инициалы, если применимо "JENNIFER"
LastName строка Извлеченная фамилия "BROOKS"
Национальность country Код страны соответствует стандарту ISO 3166 "USA"
Пол пол Возможные извлеченные значения включают "M" "F" "X" "F"
MachineReadableZone объект Извлеченный паспорт с зоной машинного считывания, включая две строки из 44 символов "P<USABROOKS<<JENNIFER<<<<<<<<<<<<<<<<<<<<<<< 3400200135USA8001014F1905054710000307<715816"
DocumentType строка Тип документа, например паспорт, водительские права "passport"
Адрес строка Извлеченный адрес (только для водительских прав) "123 УЛИЦА ГОРОД WA 99999-1234"
Область/регион строка Извлеченный регион, штат, провинция и т. д. (только для водительских прав) "Washington"

Руководство по миграции

  • Следуйте руководству по миграции с помощью аналитики документов версии 3.1, чтобы узнать, как использовать версию версии 3.0 в приложениях и рабочих процессах.

Следующие шаги

  • Попробуйте обработать собственные формы и документы с помощью Document Intelligence Studio.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.

  • Попробуйте обработать собственные формы и документы с помощью средства проверки меток для аналитики документов.

  • Выполните краткое руководство по анализу документов и начните создавать приложение для обработки документов на выбранном языке разработки.