Требования и ограничения для моделей в Microsoft Syntex
Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели
Microsoft Syntex позволяет создавать пользовательские и предварительно созданные модели. В зависимости от выбранного типа модели могут возникать различные требования, например тип и размер файла, языки, которые необходимо поддерживать, географические аспекты и другие факторы, которые помогут вам решить, какой тип модели следует использовать.
Пользовательские модели:
- Обработка неструктурированных документов
- Обработка документов в свободной форме
- Структурированная обработка документов
Предварительно созданные модели:
Пользовательские модели
Обработка неструктурированных документов
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx (формулы в файлах .xls и .xlsx не выполняются). |
![]() |
Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Если файлы .pdf заблокированы паролем, необходимо снять блокировку перед отправкой. — Общий размер файлов документов, используемых для обучения для каждой коллекции, не должен превышать 50 МБ, а pdf-документы не должны содержать более 500 страниц. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. Очень широкие изображения или изображения нестандартных размеров (например, планы этажей) могут быть обрезаны в процессе распознавания текста и потерять точность. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — При сканировании из бумажных документов сканирование должно быть высококачественным. — должен использовать латинский алфавит (английские символы). Обратите внимание на следующие различия в текстовых файлах Microsoft Office и файлах, сканируемых OCR (.pdf, image или .tiff). — Все файлы: усечено в 64 000 символов (при обучении и при выполнении с файлами в библиотеке документов). — Файлы, отсканированные OCR: существует ограничение в 500 страниц. OCR обрабатывает только типы файлов PDF и изображений. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. |
Обработка документов в свободной форме
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: см. требования к типу файлов. |
![]() |
Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка OCR лучше всего подходит для документов, соответствующих этим требованиям. |
![]() |
Советы по оптимизации Если модель работает не так, как вы хотите, попробуйте выполнить следующие действия, чтобы повысить производительность модели. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Настраиваемые среды Power Platform Если для обработки Power Platform используется настраиваемая среда (а не среда по умолчанию), существуют дополнительные требования к настройке. Дополнительные сведения см. в разделе Пользовательские среды Power Platform. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. Для каждой библиотеки может быть только одна свободная модель или одна структурированная модель. |
Структурированная обработка документов
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: см. требования к типу файлов. |
![]() |
Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка OCR лучше всего подходит для документов, соответствующих этим требованиям. |
![]() |
Советы по оптимизации Если модель работает не так, как вы хотите, попробуйте выполнить следующие действия, чтобы повысить производительность модели. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Настраиваемые среды Power Platform Если для обработки Power Platform используется настраиваемая среда (а не среда по умолчанию), существуют дополнительные требования к настройке. Дополнительные сведения см. в разделе Пользовательские среды Power Platform. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. Для каждой библиотеки может быть только одна свободная модель или одна структурированная модель. |
Готовые модели
Обработка контракта
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff. |
![]() |
Поддерживаемые языки Эта модель поддерживает только контракты на английском языке. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. |
Обработка счета
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff. |
![]() |
Поддерживаемые языки Эта модель поддерживает счета на английском, испанском, немецком, французском, итальянском, португальском и голландском языках. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. |
Обработка квитанций
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .bmp, .jpeg, .pdf, .png и .tiff. |
![]() |
Поддерживаемые языки Эта модель поддерживает квитанции на английском, чешском, датском, голландском, финском, немецком, венгерском, итальянском, японском, латышском, литовском, норвежском, португальском, испанском, шведском и вьетнамском языках. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. |
Обработка конфиденциальной информации
Значок | Описание |
---|---|
![]() |
Поддерживаемые типы файлов Эта модель поддерживает следующие типы файлов: .csv, .doc, .docx, .eml, .heic, .heif, .htm, .html, .jpeg, .jpg, .md, .msg, .pdf, .png, .ppt, .pptx, .rtf, .tif, .tiff, .txt, .xls и .xlsx. |
![]() |
Поддерживаемые языки Эта модель поддерживает следующие языки: см. раздел Поддерживаемые языки. Эта модель также поддерживает языки как для рукописного текста , так и для печатного текста. |
![]() |
Рекомендации по распознаванию текста Эта модель использует технологию оптического распознавания символов (OCR) для сканирования файлов .pdf, файлов изображений и файлов .tiff. Обработка с помощью технологии распознавания текста лучше всего работает с документами, которые соответствуют следующим требованиям: — формат файла .jpg, .png или .pdf (текстовый или отсканированный). Внедренные в текст .pdf файлы лучше, так как при извлечении символов и расположении не будет ошибок. — Для .pdf и .tiff файлов можно обработать до 2000 страниц. — Размер файла должен быть меньше 50 МБ. — Для изображений размеры должны быть от 50 x 50 до 10 000 x 10 000 пикселей. — Для файлов .pdf размеры должны быть не более 11 x 17 дюймов, что соответствует размерам бумаги Legal или A3 и меньше. — Общий размер обучающих данных составляет 500 страниц или меньше. Поддерживает языки как для рукописного текста , так и для печатного текста. |
![]() |
Среды с поддержкой нескольких регионов При настройке Syntex в среде Microsoft 365 с несколькими регионами можно настроить только для использования типа модели в центральном расположении. Если вы хотите использовать этот тип модели в спутниковом расположении, обратитесь в службу поддержки Майкрософт. |
![]() |
Библиотеки с несколькими моделями Если две или более обученных моделей применяются к одной библиотеке, файл классифицируется с помощью модели, которая имеет самый высокий средний показатель достоверности. Извлеченные сущности будут только из примененной модели. |
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по