Использование предварительно созданных моделей
Tip
Дополнительные сведения см. на вкладке "Текст и изображения ".
Предварительно созданные модели в Azure Document Intelligence позволяют извлекать данные из распространенных типов форм без обучения собственных моделей. Корпорация Майкрософт обучает эти модели на большом количестве примеров документов, поэтому вы можете ожидать точные и надежные результаты для стандартных типов документов.
Модели анализа документов
Прежде чем ознакомиться с предварительно созданными моделями для конкретного домена, важно понимать модели анализа документов, лежащие в основе их.
Модель чтения данных
Модель чтения извлекает печатный и рукописный текст из документов и изображений. Он обнаруживает язык каждой текстовой строки и классифицирует, является ли текст рукописным или печатным. Модель чтения используется в качестве основы для извлечения текста во всех других моделях аналитики документов.
Для многостраничных PDF-файлов или TIFF можно использовать pages параметр в запросе, чтобы указать диапазон страниц для анализа.
Модель чтения идеально подходит для извлечения слов и строк из документов без фиксированной или прогнозируемой структуры.
Модель макета
Модель макета расширяет извлечение текста модели чтения с обнаружением знаков выделения, таблиц и структуры документа. Она также поддерживает необязательную функцию keyValuePairs для извлечения пар ключ-значение.
При оцифровке документа он может быть под углом, или таблицы могут иметь сложные структуры с объединенными ячейками или неполными строками. Модель макета может справиться с этими трудностями. Каждая ячейка таблицы извлекается со своим содержимым, положением ограничивающей рамки и индексами строк и столбцов.
Метки выделения (флажки и переключатели) извлекаются вместе с их ограничивающей рамкой, уровнем достоверности и информацией о том, выбраны они или нет.
Замечание
Общая модель документов была доступна в более ранних версиях Аналитики документов, но была снята с поддержки в выпуске 2023-10-31-preview. Ее функциональные возможности для пары "ключ-значение" и извлечения сущностей были включены в модель макета и другие функции.
Предварительно созданные модели для определенных типов документов
Аналитика документов Azure включает предварительно созданные модели, обученные для определенных типов документов. Ниже приведены некоторые готовые модели, доступные для извлечения полей из общих бизнес-документов:
Финансовые и юридические документы
| Модель | Описание |
|---|---|
| Счет-фактура | Извлекает имя клиента, сведения о поставщике, номер заказа на покупку, дата выставления счета и срок оплаты, адреса выставления счетов и доставки, позиции и итоги. |
| Квитанция | Извлекает сведения о продавце, дату и время транзакции, элементы строки и итоги. Поддерживает обработку одностраничных квитанций из гостиниц. |
| Банковская выписка | Извлекает сведения об учетной записи, начале и окончании балансов, а также сведения о транзакциях. |
| Проверка | Извлекает получателя платежа, сумму, дату и другую соответствующую информацию. |
| Платёжная ведомость | Извлекает заработную плату, часы, вычеты, чистую зарплату и другие распространенные поля расчетных листков. |
| Кредитная карта | Извлекает сведения о платной карте. |
| контракт | Извлекает сведения о соглашении и данные о стороне. |
Налоговые документы США
| Модель | Описание |
|---|---|
| Единый налог США | Одна модель, извлекающая данные из любого поддерживаемого типа налоговой формы США. |
| W-2 | Извлекает сведения о налогооблагаемой компенсации. |
| 1098 и варианты | Извлекает ипотечные проценты и связанные сведения. |
| 1099 и варианты | Извлекает доход из различных источников. |
| 1040 и варианты | Извлекает сведения из налоговой декларации на индивидуальный доход. |
Ипотечные документы США
| Модель | Описание |
|---|---|
| 1003 (URLA) | Извлекает данные заявления на получение кредита. |
| 1004 (URAR) | Извлекает информацию из оценки имущества. |
| 1005 | Извлекает информацию о проверке занятости. |
| 1008 | Извлекает данные о передаче кредита. |
| Закрытие раскрытия | Извлекает окончательные условия закрытия кредита. |
Документы для идентификации личности
| Модель | Описание |
|---|---|
| Удостоверение личности | Извлекает сведения из лицензий водителя США, идентификаторов европейских союзов и водительских лицензий и международных паспортов. Включает имена, даты рождения, номера документов и утверждения или ограничения. |
| Карточка медицинского страхования | Извлекает общие поля из карт медицинского страхования США. |
| Свидетельство о браке | Извлекает сертифицированные сведения о браке. |
Это важно
Модель идентификационных документов извлекает личную информацию, на которую распространяются законодательство о защите данных в большинстве юрисдикций. Убедитесь, что у вас есть разрешение на хранение данных и соблюдение всех применимых юридических требований.
Возможности предварительно созданных моделей
Предварительно созданные модели предназначены для извлечения различных типов данных из документов. К этим функциям относятся:
- Извлечение текста: все предварительно созданные модели извлекают строки и слова из рукописного и печатного текста.
- Пары "ключ-значение": диапазоны текста, которые определяют метку и его ответ. Например, вес и 31 кг.
- Метки выбора: флажки и радиокнопки, включая состояние выбора, выбраны они или нет.
- Таблицы: данные в ячейках, включая количество столбцов и строк, заголовков столбцов и строк и объединенных ячеек.
-
Поля. Модели, обученные для определенного типа формы, определяют фиксированный набор полей. Например, модель счета извлекает
CustomerNameиInvoiceTotal.
Когда использовать готовые или индивидуальные модели
Предварительно созданные модели охватывают наиболее распространенные типы документов. Если у вас есть конкретный или уникальный тип формы, вы можете получить более точные результаты с помощью пользовательской модели. Однако для обучения пользовательских моделей требуется время и примеры данных. Всегда проверяйте, существует ли предварительно созданная модель для вашего сценария, прежде чем инвестировать в разработку пользовательских моделей.