Когнитивный навык извлечения документа
Навык извлечение документа извлекает содержимое из файла в конвейере обогащения. Так вы можете воспользоваться шагом извлечения документов, который обычно происходит перед выполнением набора навыков с файлами, которые могут быть созданы другими навыками.
Примечание.
Этот навык не привязан к службам ИИ Azure и не имеет ключевого требования к службам ИИ Azure. Этот навык извлекает текст и изображения. Извлечение текста бесплатно. Извлечение изображений измеряется поиском ИИ Azure. В бесплатной службе поиска стоимость 20 транзакций на индексатор в день поглощается, чтобы вы могли завершить краткие руководства, учебники и небольшие проекты без платы. Извлечение изображений является платным для ценовой категории "Базовый", "Стандартный" и более высокой категории.
@odata.type
Microsoft.Skills.Util.DocumentExtractionSkill
Поддерживаемые форматы документов
DocumentExtractionSkill позволяет извлекать текст из следующих форматов документов.
- CSV (см. раздел индексирование больших двоичных объектов CSV)
- EML
- EPUB
- GZ
- HTML
- JSON (см. индексирование BLOB-объектов JSON);
- KML (XML для географических представлений)
- Форматы Microsoft Office: DOCX/DOC/DOCM, XLSX/XLSM, PPTX/PPT/PPTM, MSG (outlook emails), XML (как 2003, так и 2006 WORD XML)
- Форматы открытых документов: ODT, ODS, ODP
- обычные текстовые файлы (см. также индексирование обычного текста);
- RTF
- XML
- ZIP
Параметры навыков
Параметры зависят от регистра.
Входные данные | Допустимые значения | Description |
---|---|---|
parsingMode |
default text json |
Задайте значение default для извлечения документов из файлов, которые не являются чистым текстом или json. Для исходных файлов, содержащих разметку (например, PDF, HTML, RTF и файлы Microsoft Office), используйте по умолчанию только текст, минус любой язык разметки или теги. Если parsingMode он не определен явно, он будет иметь значение default . text Установите значение, если исходные файлы — TXT. Этот режим синтаксического анализа повышает производительность файлов обычного текста. Если файлы включают разметку, этот режим сохранит теги в окончательных выходных данных. Задайте значение json , чтобы извлечь структурированное содержимое из файлов JSON. |
dataToExtract |
contentAndMetadata allMetadata |
Задайте значение contentAndMetadata , чтобы из каждого файла извлекались все метаданные и текстовое содержимое. Если dataToExtract он не определен явно, он будет иметь значение contentAndMetadata . Задайте значение allMetadata , чтобы извлечь только свойства метаданных для типа содержимого (например, метаданные, присутствующие только в PNG-файлах). |
configuration |
См. ниже. | Словарь необязательных параметров, влияющих на извлечение документа. Описание поддерживаемых свойств конфигурации см. в таблице ниже. |
Параметр конфигурации | Допустимые значения | Description |
---|---|---|
imageAction |
none generateNormalizedImages generateNormalizedImagePerPage |
Установите для none пропуска внедренных изображений или файлов изображений в наборе данных или если исходные данные не включают файлы изображений. Это значение по умолчанию. Для OCR и анализа изображений задайте generateNormalizedImages для навыка создание массива нормализованных изображений в рамках взлома документов. Для этого действия параметр parsingMode должен иметь значение default , а параметр dataToExtract должен иметь значение contentAndMetadata . Нормализованное изображение относится к дополнительной обработке, что приводит к равномерному выводу изображения, размеру и повороту для повышения согласованности отрисовки при включении изображений в результаты визуального поиска (например, фотографии с одинаковыми размерами в элементе управления графом, как показано в демонстрации JFK). Эта функция формируют такие сведения по каждому изображению. Если задано generateNormalizedImagePerPage значение , PDF-файлы обрабатываются по-разному, а не извлекать внедренные изображения, каждая страница отображается как изображение и нормализуется соответствующим образом. Типы файлов, отличные от PDF, обрабатываются так же, как если бы generateNormalizedImages он был задан. |
normalizedImageMaxWidth |
Целочисленное значение от 50 до 10 000 | Максимальная ширина (в пикселях) для созданного нормализованного изображения. Значение по умолчанию — 2000. |
normalizedImageMaxHeight |
Целочисленное значение от 50 до 10 000 | Максимальная высота (в пикселях) для созданных нормализованных изображений. Значение по умолчанию — 2000. |
Примечание.
По умолчанию навыками OCR и анализа изображений поддерживаются нормализованные изображения с максимальными шириной и высотой в 2000 пикселей. Навык OCR поддерживает максимальную ширину и высоту 4200 для языков, отличных от английского, и 10 000 для английского языка. Если увеличить максимальные пределы, то обработка может завершиться сбоем на больших изображениях в зависимости от определения набора навыков и языка документов.
Входные данные навыков
Ввод имени | Description |
---|---|
file_data |
Файл, из которого должно быть извлечено содержимое. |
Входные данные "file_data" должны быть объектом, определенным как:
{
"$type": "file",
"data": "BASE64 encoded string of the file"
}
Кроме того, его можно определить следующим образом:
{
"$type": "file",
"url": "URL to download file",
"sasToken": "OPTIONAL: SAS token for authentication if the URL provided is for a file in blob storage"
}
Объект ссылки на файл можно создать одним из трех способов:
Установка параметру
allowSkillsetToReadFileData
в определении индексатора значения "true". При этом создается путь/document/file_data
, представляющий исходные данные файла, скачанные из источника данных BLOB-объектов. Этот параметр применяется только к файлам в хранилище BLOB-объектов.Установка параметру
imageAction
в определении индексатора значения отличного отnone
. При этом создается массив изображений, которые соответствуют требуемому соглашению для ввода этого навыка, если они передаются по отдельности (т/document/normalized_images/*
. е. ).При наличии настраиваемого навыка возвращается объект JSON, определенный в точности так, как показано выше.
$type
Параметр должен быть задан точно какfile
, аdata
параметр должен быть данными массива байтов с кодировкой Base 64, содержащихся в файле, либо параметрurl
должен иметь правильно отформатированный URL-адрес с доступом для скачивания файла в этом расположении.
Выходные данные навыка
Имя вывода | Description |
---|---|
content |
Текстовое содержимое документа. |
normalized_images |
imageAction Если задано значение, отличное none от значения, новое поле normalized_images содержит массив изображений. Дополнительные сведения о выходном формате см. в статье "Извлечение текста и сведений из изображений ". |
Пример определения
{
"@odata.type": "#Microsoft.Skills.Util.DocumentExtractionSkill",
"parsingMode": "default",
"dataToExtract": "contentAndMetadata",
"configuration": {
"imageAction": "generateNormalizedImages",
"normalizedImageMaxWidth": 2000,
"normalizedImageMaxHeight": 2000
},
"context": "/document",
"inputs": [
{
"name": "file_data",
"source": "/document/file_data"
}
],
"outputs": [
{
"name": "content",
"targetName": "extracted_content"
},
{
"name": "normalized_images",
"targetName": "extracted_normalized_images"
}
]
}
Пример ввода
{
"values": [
{
"recordId": "1",
"data":
{
"file_data": {
"$type": "file",
"data": "aGVsbG8="
}
}
}
]
}
Пример полученных результатов
{
"values": [
{
"recordId": "1",
"data": {
"content": "hello",
"normalized_images": []
}
}
]
}
См. также
- Встроенные навыки
- Определение набора навыков
- How to process and extract information from images in cognitive search scenarios (Обработка и извлечение информации из изображений в сценариях когнитивного поиска)