Обзор типов моделей в Microsoft Syntex
Область применения: ✓ Все пользовательские модели | ✓ Все предварительно созданные модели
Понимание содержимого в Microsoft Syntex начинается с моделей обработки документов. Модели обработки документов позволяют выявлять и классифицировать документы, которые отправляются в библиотеки документов SharePoint, а затем извлекать необходимые сведения из каждого файла.
При применении к библиотеке документов SharePoint модель связана с типом контента и содержит столбцы для хранения извлекаемых сведений. Созданный вами тип контента сохраняется в галерее типов контента SharePoint. Вы также можете пользоваться существующими типами контента, чтобы применять их схемы.
Syntex использует пользовательские модели и предварительно созданные модели.
Модели могут быть корпоративными моделями, созданными в центре содержимого, или локальными моделями, созданными на локальном сайте SharePoint.
Пользовательские модели
Выбранный тип пользовательской модели зависит от используемых типов файлов, формата и структуры файлов и места применения модели.
Пользовательские модели включают:
- Обработка неструктурированных документов
- Обработка документов в свободной форме
- Структурированная обработка документов
Дополнительные сведения о параллельных различиях в пользовательских моделях см. в статье Сравнение пользовательских моделей.
При создании пользовательской модели вы выбираете метод обучения, связанный с типом модели. Например, если вы хотите создать неструктурированную модель обработки документов, на странице Параметры создания модели , где вы создаете модель, выберите метод Обучение . В следующей таблице показан метод обучения, связанный с каждым пользовательским типом модели.
Неструктурированных обработка документов |
Freeform обработка документов |
Структурированные обработка документов |
---|---|---|
Примечание.
Чтобы сделать метод выбора Freeform и метод Макет доступными для пользователей, их сначала необходимо настроить в Центр администрирования Microsoft 365.
Обработка неструктурированных документов
Используйте неструктурированную модель обработки документов для автоматической классификации документов и извлечения информации из них. Эта функция лучше всего работает с неструктурированными документами, например с письмами и контрактами. Анализируемые документы должны содержать текст, который можно найти с помощью фраз или шаблонов. Обнаруженный текст определяет как тип файла (его классификатор), так и подлежащие извлечению данные (его экстракторы).
Например, неструктурированным документом может быть письмо о продлении контракта, которое может быть написано как угодно. Однако в тексте каждого документа о продлении контракта постоянно содержатся сведения, например текстовая строка "Дата начала службы", за которой следует фактическая дата.
Этот тип модели поддерживает самый широкий диапазон типов файлов и поддерживает более 40 языков.
При создании неструктурированной модели обработки документов используйте параметр Метод Обучения .
Дополнительные сведения см. в статье Общие сведения об обработке неструктурированных документов.
Обработка документов в свободной форме
Используйте модель обработки документов в свободной форме для автоматического извлечения информации из неструктурированных документов и документов свободной формы, таких как буквы и контракты, где информация может отображаться в любом месте документа.
Модели обработки документов в свободной форме используют Microsoft Power Apps AI Builder для создания и обучения моделей в Syntex.
Примечание.
Модель обработки документов в свободной форме пока недоступна в некоторых регионах. Дополнительные сведения см. в разделе Доступность компонентов по регионам.
Поскольку ваша организация получает письма и документы в большом количестве из различных источников, таких как почта, факс и электронная почта, обработка этих документов и их ввод вручную в базу данных может занять значительное время. Используя ИИ для извлечения текста и других сведений из этих документов, эта модель автоматизирует этот процесс.
Этот тип модели является оптимальным вариантом для документов в PDF-файлах или файлах изображений, если не требуется автоматическая классификация типа документа и поддерживает более 40 языков.
При создании модели обработки документов в свободной форме используйте метод выбора свободной формы .
Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.
Структурированная обработка документов
Используйте структурированную модель обработки документов для автоматической идентификации значений полей и таблиц. Он лучше всего подходит для структурированных или частично структурированных документов, таких как формы и счета.
Структурированные модели обработки документов используют обработку документов Microsoft Power Apps AI Builder (прежнее название — обработка форм) для создания и обучения моделей в Syntex.
Этот тип модели поддерживает самый широкий диапазон языков и обучен понимать макет формы из примеров документов, а затем учится искать данные, необходимые для извлечения из аналогичных расположений. Формы обычно имеют более структурированный макет, где сущности находятся в одном расположении (например, номер социального страхования в налоговой форме).
При создании структурированной модели обработки документов используйте параметр Метод Макет .
Дополнительные сведения см. в статье Общие сведения о структурированной и бесплатной обработке документов.
Готовые модели
Если вам не нужно создавать пользовательскую модель, можно использовать предварительно созданную модель обработки документов , которая уже обучена для конкретных структурированных документов.
К предварительно созданным моделям относятся:
Предварительно созданные модели предварительно обучены распознавать документы и структурированную информацию в документах. Вместо того, чтобы создавать новую пользовательскую модель с нуля, можно выполнить итерацию по существующей предварительно обученной модели, чтобы добавить определенные поля, которые соответствуют потребностям вашей организации.
Обработка контракта
Модель обработки контракта анализирует и извлекает ключевую информацию из документов контракта. API анализирует контракты в различных форматах и извлекает ключевые сведения о контракте, такие как имя клиента или стороны, адрес выставления счетов, юрисдикция и дата окончания срока действия.
Дополнительные сведения о предварительно созданных моделях обработки контрактов см. в разделе Использование предварительно созданной модели для извлечения сведений из контрактов.
Обработка счета
Модель обработки счетов анализирует и извлекает ключевую информацию из счетов продаж. API анализирует счета в различных форматах и извлекает ключевые сведения о счете, такие как имя клиента, адрес выставления счетов, дата выполнения и сумма.
Дополнительные сведения о предварительно созданных моделях обработки счетов см. в разделе Использование предварительно созданной модели для извлечения сведений из счетов.
Обработка квитанций
Предварительно созданная модель обработки квитанций анализирует и извлекает ключевую информацию из квитанций о продажах. API анализирует печатные и рукописные квитанции и извлекает ключевые сведения о квитанциях, такие как имя продавца, номер телефона продавца, дата транзакции, налог и итог транзакции.
Дополнительные сведения о предварительно созданных моделях обработки квитанций см. в статье Использование предварительно созданной модели для извлечения сведений из квитанций.
Обратная связь
https://aka.ms/ContentUserFeedback.
Ожидается в ближайшее время: в течение 2024 года мы постепенно откажемся от GitHub Issues как механизма обратной связи для контента и заменим его новой системой обратной связи. Дополнительные сведения см. в разделеОтправить и просмотреть отзыв по