Возможности надстройки аналитики документов
Внимание
- Выпуски общедоступной предварительной версии Document Intelligence предоставляют ранний доступ к функциям, которые находятся в активной разработке.
- Функции, подходы и процессы могут изменяться до общедоступной доступности на основе отзывов пользователей.
- Общедоступная предварительная версия клиентских библиотек Аналитики документов по умолчанию использует rest API версии 2024-02-29-preview.
- Общедоступная предварительная версия 2024-02-29-preview в настоящее время доступна только в следующих регионах Azure:
- Восточная часть США
- Западная часть США2
- Западная Европа
Это содержимое относится к:v4.0 (предварительная версия) | Предыдущие версии:v3.1 (GA)
Это содержимое относится к:v3.1 (GA) | Latest version:v4.0 (предварительная версия)
Примечание.
Возможности надстройки доступны во всех моделях, кроме модели бизнес-карта.
Возможности
Аналитика документов поддерживает более сложные и модульные возможности анализа. Используйте функции надстройки, чтобы расширить результаты, чтобы включить дополнительные функции, извлеченные из документов. Некоторые функции надстройки требуют дополнительных затрат. Эти необязательные функции можно включить и отключить в зависимости от сценария извлечения документов. Чтобы включить функцию, добавьте связанное имя функции в features
свойство строки запроса. Вы можете включить несколько функций надстройки по запросу, предоставив разделенный запятыми список функций. Следующие возможности надстройки доступны для 2023-07-31 (GA)
и более поздних выпусков.
Примечание.
Не все возможности надстройки поддерживаются всеми моделями. Дополнительные сведения см. в статьеоб извлечении данных модели.
Для и 2024-02-29-preview
более поздних выпусков доступны2024-02-29-preview
следующие возможности надстройки:
Примечание.
Реализация полей запроса в API предварительной версии 2023-10-30 отличается от последнего предварительного выпуска. Новая реализация является менее дорогой и хорошо работает с структурированными документами.
Доступность версий
Возможность надстройки | Надстройка или бесплатная | 2024-02-29-preview | 2023-07-31 (GA) |
2022-08-31 (GA) |
v2.1 (GA) |
---|---|---|---|---|---|
Извлечение свойств шрифта | Надстройка | ✔️ | ✔️ | Недоступно | Недоступно |
Извлечение формул | Надстройка | ✔️ | ✔️ | Недоступно | Недоступно |
Извлечение высокого разрешения | Надстройка | ✔️ | ✔️ | Недоступно | Недоступно |
Извлечение штрихкодов | Бесплатно | ✔️ | ✔️ | Недоступно | Недоступно |
Распознавание языка | Бесплатно | ✔️ | ✔️ | Недоступно | Недоступно |
Пары "ключ — значение" | Бесплатно | ✔️ | Недоступно | н/д | Недоступно |
Поля запроса | Надстройка* | ✔️ | Недоступно | н/д | Недоступно |
✱ Надстройка — поля запросов отличаются от других функций надстройки. Подробные сведения см. в разделе Цены.
Поддерживаемые типы файлов
PDF
Изображения:
JPEG
/JPG
, ,BMP
,TIFF
PNG
HEIF
✱ Файлы Microsoft Office в настоящее время не поддерживаются.
Извлечение высокого разрешения
Задача распознавания небольшого текста из документов большого размера, таких как инженерные рисунки, является проблемой. Часто текст смешан с другими графическими элементами и имеет различные шрифты, размеры и ориентации. Кроме того, текст можно разбить на отдельные части или подключиться к другим символам. Аналитика документов теперь поддерживает извлечение содержимого из этих типов документов с ocr.highResolution
возможностью. Вы получаете улучшенное качество извлечения содержимого из документов A1/A2/A3, включив эту возможность надстройки.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=ocrHighResolution
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=ocrHighResolution
Извлечение формул
Возможность ocr.formula
извлекает все определенные формулы, такие как математические уравнения, в коллекции как formulas
объект верхнего уровня в разделе content
. Внутри content
обнаруженные формулы представлены как :formula:
. Каждая запись в этой коллекции представляет формулу, которая включает тип формулы как inline
или display
, а также его представление LaTeX, как value
и его polygon
координаты. Изначально формулы отображаются в конце каждой страницы.
Примечание.
Оценка confidence
жестко закодирована.
"content": ":formula:",
"pages": [
{
"pageNumber": 1,
"formulas": [
{
"kind": "inline",
"value": "\\frac { \\partial a } { \\partial b }",
"polygon": [...],
"span": {...},
"confidence": 0.99
},
{
"kind": "display",
"value": "y = a \\times b + a \\times c",
"polygon": [...],
"span": {...},
"confidence": 0.99
}
]
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=formulas
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=formulas
Извлечение свойств шрифта
Функция ocr.font
извлекает все свойства шрифта текста, извлеченного в коллекции, styles
как объект верхнего уровня в разделе content
. Каждый объект стиля задает одно свойство шрифта, диапазон текста, к нему применяется и соответствующая оценка достоверности. Существующее свойство стиля расширяется с большим количеством свойств шрифта, таких как similarFontFamily
шрифт текста, fontStyle
для стилей, таких как курсив и обычный, полужирный или обычныйcolor
, fontWeight
для цвета текста и backgroundColor
цвета ограничивающего текста поля.
"content": "Foo bar",
"styles": [
{
"similarFontFamily": "Arial, sans-serif",
"spans": [ { "offset": 0, "length": 3 } ],
"confidence": 0.98
},
{
"similarFontFamily": "Times New Roman, serif",
"spans": [ { "offset": 4, "length": 3 } ],
"confidence": 0.98
},
{
"fontStyle": "italic",
"spans": [ { "offset": 1, "length": 2 } ],
"confidence": 0.98
},
{
"fontWeight": "bold",
"spans": [ { "offset": 2, "length": 3 } ],
"confidence": 0.98
},
{
"color": "#FF0000",
"spans": [ { "offset": 4, "length": 2 } ],
"confidence": 0.98
},
{
"backgroundColor": "#00FF00",
"spans": [ { "offset": 5, "length": 2 } ],
"confidence": 0.98
}
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=styleFont
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=styleFont
Извлечение свойств Штрихкода
Функция ocr.barcode
извлекает все определенные штрихкоды в barcodes
коллекции как объект верхнего уровня в разделе content
. Внутри , обнаруженные content
штрихкоды представлены как :barcode:
. Каждая запись в этой коллекции представляет штрихкод и включает тип штрихкода как kind
и внедренное содержимое штрихкода, как value
и его polygon
координаты. Изначально штрихкоды отображаются в конце каждой страницы. Жестко confidence
закодирован для 1.
Поддерживаемые типы штрихкодов
Тип штрихкода | Пример |
---|---|
QR Code |
|
Code 39 |
|
Code 93 |
|
Code 128 |
|
UPC (UPC-A & UPC-E) |
|
PDF417 |
|
EAN-8 |
|
EAN-13 |
|
Codabar |
|
Databar |
|
Databar Расширена |
|
ITF |
|
Data Matrix |
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=barcodes
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=barcodes
Распознавание языка
languages
Добавление функции в analyzeResult
запрос прогнозирует обнаруженный первичный язык для каждой текстовой строки вместе с confidence
коллекцией в languages
разделе analyzeResult
.
"languages": [
{
"spans": [
{
"offset": 0,
"length": 131
}
],
"locale": "en",
"confidence": 0.7
},
]
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=languages
{your-resource-endpoint}.cognitiveservices.azure.com/formrecognizer/documentModels/prebuilt-layout:analyze?api-version=2023-07-31&features=languages
Пары "Ключ-значение"
В более ранних версиях API предварительно созданная модель документа извлекла пары "ключ-значение" из форм и документов. При добавлении функции к предварительно созданному макету модель макета keyValuePairs
теперь выдает те же результаты.
Пары "ключ-значение" — это отдельные фрагменты внутри документа, которые определяют метку или ключ и связанный с ними ответ или значение. В структурированной форме эти пары могут быть меткой и значением, которое пользователь указал для данного поля. В неструктурированном документе они могут быть датой подписания договора на основании текста в абзаце. Модель искусственного интеллекта предназначена для извлечения идентифицируемых ключей и значений на основе широкого спектра типов документов, форматов и структур.
Ключи также могут существовать в изоляции, когда модель обнаруживает, что ключ существует, но с ним не связано ни одно значение, или при обработке необязательных полей. Например, поле промежуточного имени можно оставить пустым в форме в некоторых экземплярах. Пары "ключ-значение" всегда представляют собой фрагменты текста, содержащиеся в документе. Для документов, в которых одно и то же значение описано разными способами, например клиент или пользователь, связанный ключ является клиентом или пользователем (в зависимости от контекста).
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=keyValuePairs
Поля запроса
Поля запросов — это возможность расширения схемы, извлеченной из любой предварительно созданной модели, или определения определенного имени ключа при переменной имени ключа. Чтобы использовать поля запроса, задайте функции queryFields
и укажите список имен полей с разделием запятыми в свойстве queryFields
.
Аналитика документов теперь поддерживает извлечение полей запросов. При извлечении поля запроса можно добавлять поля в процесс извлечения с помощью запроса без необходимости в добавленном обучении.
Используйте поля запроса, если необходимо расширить схему предварительно созданной или пользовательской модели или извлечь несколько полей с выходными данными макета.
Поля запросов — это возможность надстройки уровня "Премиум". Для получения наилучших результатов определите поля, которые требуется извлечь с помощью имен полей верблюдьего регистра или Pascal для имен полей с несколькими словами.
Поля запросов поддерживают не более 20 полей на запрос. Если документ содержит значение для поля, возвращается поле и значение.
Этот выпуск имеет новую реализацию возможностей полей запроса, которая имеет более низкую цену, чем более ранняя реализация, и должна быть проверена.
Примечание.
Извлечение поля запросов Document Intelligence Studio в настоящее время доступно с ПОМОЩЬЮ API макетов и предварительно созданных моделей 2024-02-29-preview
2023-10-31-preview
и более поздних выпусков, кроме US tax
моделей (W2, 1098s и 1099s).
Извлечение поля запроса
Для извлечения полей запроса укажите поля, которые необходимо извлечь, и аналитика документов анализирует документ соответствующим образом. Приведем пример:
Если вы обрабатываете контракт в Студии аналитики документов, используйте
2024-02-29-preview
2023-10-31-preview
следующие версии:Вы можете передать список меток полей, например
Party1
,Party2
,TermsOfUse
,PaymentTerms
иPaymentDate
TermEndDate
как частьanalyze document
запроса.Аналитика документов может анализировать и извлекать данные поля и возвращать значения в структурированных выходных данных JSON.
В дополнение к полям запроса ответ включает текст, таблицы, метки выделения и другие соответствующие данные.
REST API
{your-resource-endpoint}.cognitiveservices.azure.com/documentintelligence/documentModels/prebuilt-layout:analyze?api-version=2024-02-29-preview&features=queryFields&queryFields=TERMS
Следующие шаги
Дополнительные сведения: чтение модели макета модели
Примеры пакета SDK: Python