Требования и ограничения для моделей в Microsoft Syntex

Статья
06/29/2024

^{Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели}

Microsoft Syntex позволяет создавать пользовательские и предварительно созданные модели. В зависимости от выбранного типа модели могут возникать различные требования, например тип и размер файла, языки, которые необходимо поддерживать, географические аспекты и другие факторы, которые помогут вам решить, какой тип модели следует использовать.

Пользовательские модели:

Обработка неструктурированных документов
Обработка документов в свободной форме
Структурированная обработка документов

Предварительно созданные модели:

Обработка контракта
Обработка счета
Обработка квитанций
Обработка конфиденциальной информации

Пользовательские модели

Обработка неструктурированных документов

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx (формулы в файлах .xls и .xlsx не выполняются).
	Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Если файлы .pdf заблокированы паролем, необходимо снять блокировку перед отправкой. — Общий размер файлов документов, используемых для обучения для каждой коллекции, не должен превышать 50 МБ, а pdf-документы не должны содержать более 500 страниц. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. Очень широкие изображения или изображения нестандартных размеров (например, планы этажей) могут быть обрезаны в процессе распознавания текста и потерять точность. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — При сканировании из бумажных документов сканирование должно быть высококачественным. — должен использовать латинский алфавит (английские символы). Обратите внимание на следующие различия в текстовых файлах Microsoft Office и файлах, сканируемых OCR (.pdf, image или .tiff). — Все файлы: усечено в 64 000 символов (при обучении и при выполнении с файлами в библиотеке документов). — Файлы, отсканированные OCR: существует ограничение в 500 страниц. OCR обрабатывает только типы файлов PDF и изображений.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка документов в свободной форме

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: см. требования к типу файлов.
	Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка OCR лучше всего подходит для документов, соответствующих этим требованиям.
	Советы по оптимизации Если модель работает не так, как вы хотите, попробуйте выполнить следующие действия, чтобы повысить производительность модели.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Настраиваемые среды Power Platform Если для обработки Power Platform используется настраиваемая среда (а не среда по умолчанию), существуют дополнительные требования к настройке. Дополнительные сведения см. в разделе Пользовательские среды Power Platform.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. Для каждой библиотеки может быть только одна свободная модель или одна структурированная модель.

Структурированная обработка документов

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: см. требования к типу файлов.
	Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка OCR лучше всего подходит для документов, соответствующих этим требованиям.
	Советы по оптимизации Если модель работает не так, как вы хотите, попробуйте выполнить следующие действия, чтобы повысить производительность модели.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Настраиваемые среды Power Platform Если для обработки Power Platform используется настраиваемая среда (а не среда по умолчанию), существуют дополнительные требования к настройке. Дополнительные сведения см. в разделе Пользовательские среды Power Platform.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. Для каждой библиотеки может быть только одна свободная модель или одна структурированная модель.

Готовые модели

Обработка контракта

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff.
	Поддерживаемые языки Эта модель поддерживает только контракты на английском языке.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка счета

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff.
	Поддерживаемые языки Эта модель поддерживает счета на английском, испанском, немецком, французском, итальянском, португальском и голландском языках.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка квитанций

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff.
	Поддерживаемые языки Эта модель поддерживает квитанции на английском, чешском, датском, голландском, финском, немецком, венгерском, итальянском, японском, латышском, литовском, норвежском, португальском, испанском, шведском и вьетнамском языках.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Обработка конфиденциальной информации

Значок	Описание
	Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx.
	Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки. Эта модель также поддерживает языки как для рукописного текста , так и для печатного текста.
	Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше. Поддерживает языки как для рукописного текста , так и для печатного текста.
	Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт.
	Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели.

Поделиться через