Поделиться через


Требования и ограничения для моделей в Microsoft Syntex

Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели

Microsoft Syntex позволяет создавать пользовательские и предварительно созданные модели. В зависимости от выбранного типа модели могут возникать различные требования, например тип и размер файла, языки, которые необходимо поддерживать, географические аспекты и другие факторы, которые помогут вам решить, какой тип модели следует использовать.

Пользовательские модели:

Предварительно созданные модели:

Пользовательские модели

Обработка неструктурированных документов

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx (формулы в файлах .xls и .xlsx не выполняются).
Символ беседы. Поддерживаемые языки

Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям:
— формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок.
— Если файлы .pdf заблокированы паролем, необходимо снять блокировку перед отправкой.
— Общий размер файлов документов, используемых для обучения для каждой коллекции, не должен превышать 50 МБ, а pdf-документы не должны содержать более 500 страниц.
— Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. Очень широкие изображения или изображения нестандартных размеров (например, планы этажей) могут быть обрезаны в процессе распознавания текста и потерять точность.
— Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше.
— При сканировании из бумажных документов сканирование должно быть высококачественным.
— должен использовать латинский алфавит (английские символы).
Обратите внимание на следующие различия в текстовых файлах Microsoft Office и файлах, сканируемых OCR (.pdf, image или .tiff).
— Все файлы: усечено в 64 000 символов (при обучении и при выполнении с файлами в библиотеке документов).
— Файлы, отсканированные OCR: существует ограничение в 500 страниц. OCR обрабатывает только типы файлов PDF и изображений.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка документов в свободной форме

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: см. требования к типу файлов.
Символ беседы. Поддерживаемые языки
Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка OCR лучше всего подходит для документов, соответствующих этим требованиям.
Символ пропускной способности и эффективности. Советы по оптимизации
Если модель работает не так, как вы хотите, попробуйте выполнить следующие действия, чтобы повысить производительность модели.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ блоков. Настраиваемые среды Power Platform
Если для обработки Power Platform используется настраиваемая среда (а не среда по умолчанию), существуют дополнительные требования к настройке. Дополнительные сведения см. в разделе Пользовательские среды Power Platform.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. Для каждой библиотеки может быть только одна свободная модель или одна структурированная модель.

Структурированная обработка документов

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: см. требования к типу файлов.
Символ беседы. Поддерживаемые языки
Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка OCR лучше всего подходит для документов, соответствующих этим требованиям.
Символ пропускной способности и эффективности. Советы по оптимизации
Если модель работает не так, как вы хотите, попробуйте выполнить следующие действия, чтобы повысить производительность модели.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ блоков. Настраиваемые среды Power Platform
Если для обработки Power Platform используется настраиваемая среда (а не среда по умолчанию), существуют дополнительные требования к настройке. Дополнительные сведения см. в разделе Пользовательские среды Power Platform.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. Для каждой библиотеки может быть только одна свободная модель или одна структурированная модель.

Готовые модели

Обработка контракта

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff.
Символ беседы. Поддерживаемые языки
Эта модель поддерживает только контракты на английском языке.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям:
— формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок.
— Для .pdf и .tiff файлов можно обработать до 2000 страниц.
— Размер файла должен быть меньше 50 МБ.
— Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей.
— Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше.
— Общий размер обучающих данных составляет 500 страниц или меньше.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка счета

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff.
Символ беседы. Поддерживаемые языки
Эта модель поддерживает счета на английском, испанском, немецком, французском, итальянском, португальском и голландском языках.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям:
— формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок.
— Для .pdf и .tiff файлов можно обработать до 2000 страниц.
— Размер файла должен быть меньше 50 МБ.
— Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей.
— Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше.
— Общий размер обучающих данных составляет 500 страниц или меньше.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка квитанций

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff.
Символ беседы. Поддерживаемые языки
Эта модель поддерживает квитанции на английском, чешском, датском, голландском, финском, немецком, венгерском, итальянском, японском, латышском, литовском, норвежском, португальском, испанском, шведском и вьетнамском языках.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям:
— формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок.
— Для .pdf и .tiff файлов можно обработать до 2000 страниц.
— Размер файла должен быть меньше 50 МБ.
— Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей.
— Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше.
— Общий размер обучающих данных составляет 500 страниц или меньше.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка конфиденциальной информации

Значок Описание
Символ файлов. Поддерживаемые типы файлов
Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx.
Символ беседы. Поддерживаемые языки
Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
Эта модель также поддерживает языки как для рукописного текста , так и для печатного текста.
Символ абзаца. Рекомендации по распознаванию текста
Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям:
— формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок.
— Для .pdf и .tiff файлов можно обработать до 2000 страниц.
— Размер файла должен быть меньше 50 МБ.
— Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей.
— Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше.
— Общий размер обучающих данных составляет 500 страниц или меньше.
Поддерживает языки как для рукописного текста , так и для печатного текста.
Символ глобуса. Среды с поддержкой нескольких регионов
При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
Символ объектов. Библиотеки с несколькими моделями
Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.