Поделиться через


Создание средства извлечения в Microsoft Syntex

Область применения: ✓ Обработка неструктурированных документов



До или после того, как вы создадите модель классификатора для автоматизации идентификации и классификации определенных типов документов, вы можете при необходимости выбрать добавить средство извлечения в вашу модель для извлечения определенной информации из этих документов. Например, вам может потребоваться, чтобы ваша модель не только идентифицировала все документы о возобновлении контракта, добавленные в вашу библиотеку документов, но также отображала дату начала службы для каждого документа в виде значения столбца в библиотеке документов.

Необходимо создать средство извлечения для каждого объекта в документе, который необходимо извлечь. В нашем примере мы хотим извлечь дату начала службы для каждого документа о продлении контракта , определенного моделью. Мы хотим, чтобы в библиотеке документов отображалось представление всех документов о продлении контракта со столбцом со значением даты начала службы для каждого документа.

Примечание.

Чтобы создать средство извлечения, используйте те же файлы, которые вы ранее отправили для обучения классификатора.

Назовите ваше средство извлечения

  1. На домашней странице модели на плитке Создание и обучение средств извлечения выберите Обучить средство извлечения.

  2. На экране Средство извлечения нового объекта введите имя для вашего средства извлечения в поле Имя нового средства извлечения. Например, вы можете назвать его Дата начала службы, если вы хотите извлечь дату начала службы из каждого документа о возобновлении контракта. Кроме того, вы можете повторно использовать уже созданный столбец (например, столбец управляемых метаданных).

    По умолчанию типом столбца является Одна строка текста. Если вы хотите изменить тип столбца, выберите Дополнительные параметрыТип столбца>, а затем выберите нужный тип.

    Снимок экрана: часть

    Примечание.

    Для средств извлечения с типом столбца Одна строка текста максимальное ограничение на символы составляет 255. Все выбираемые символы, превышающие ограничение, усекаются. Чтобы выделить больше 255 символов, при создании средства извлечения выберите тип столбца Несколько строк текста .

    По умолчанию создается несколько строк текстовых столбцов с ограничением на количество добавляемого текста. В этом случае извлеченный текст может показаться усеченным. В этом случае для удаления ограничения можно использовать параметр столбца Разрешить неограниченную длину в библиотеках документов .

  3. После завершения нажмите Создать.

Добавление метки

Следующий этап — пометка объекта, который вы хотите извлечь, в ваших примерах обучающих файлов.

Создание средства извлечения открывает страницу средства извлечения. Здесь вы видите список ваших примеров файлов, причем первый файл в списке отображается в средстве просмотра.

  1. В средстве просмотра выберите данные, которые нужно извлечь из файлов. Например, если вы хотите извлечь дату запуска службы, необходимо выделить значение даты в первом файле (понедельник, 14 октября 2022 г.). а затем нажмите кнопку Сохранить. Вы должны увидеть отображение значения из файла в списке «Примеры с метками» в столбце Метка.

  2. Выберите Следующий файл , чтобы автоматически сохранить, и откройте следующий файл в списке в средстве просмотра. Или выберите Сохранить, а затем выберите другой файл в списке Примеры с метками.

  3. В средстве просмотра повторите шаги 1 и 2, затем повторяйте, пока не сохраните метку во всех пяти файлах.

    Дополнительные параметры.

После того, как вы отметите пять файлов, отобразится баннер с уведомлением о переходе к обучению. Вы можете добавить метки для большего количества документов или перейти к обучению.

Обнаружение файлов с помощью функции "Найти"

Вы можете использовать функцию Найти для поиска в документе объекта, который нужно пометить.

Найти в файле.

Функция Найти полезна, если выполняется поиск в большом документе или в документе есть несколько экземпляров сущности. Если вы нашли несколько вхождений, в результатах поиска можно выбрать одно из них, чтобы перейти к его расположению в средстве просмотра и пометить его.

Добавление объяснений

В нашем примере мы создадим объяснение, которое содержит подсказку о самом формате сущности и его изменениях в примерах документов. Например, значение даты может быть в нескольких разных форматах, например:

  • 10/14/2022
  • 14 октября 2022 г.
  • 14 октября 2022 г.

Чтобы определить дату начала службы, можно создать объяснение шаблона.

  1. В разделе «Объяснения» выберите Создать и введите имя (например, Дата).
  2. Для «Типа» выберите Список шаблонов.
  3. Для «Значения» укажите варианты даты в том виде, в каком он указан в файлах примеров. Например, если у вас есть форматы даты, которые отображаются как 0/00/0000, вы вводите любые варианты, которые появляются в ваших документах, например:
    • 0/0/0000
    • 0/00/0000
    • 00/0/0000
    • 00/00/0000
  4. Выберите Сохранить.

Примечание.

Дополнительные сведения о типах объяснения см. в разделе Типы объяснений.

Использование библиотеки объяснений

Для создания объяснений для таких элементов, как даты, проще использовать библиотеку объяснений , чем вручную вводить все варианты. Библиотека объяснений представляет собой набор предварительно созданных объяснений фраз и шаблонов. Библиотека пытается предоставить все форматы для общих списков фраз или шаблонов, таких как даты, номера телефонов, почтовые индексы и многие другие.

Для примера даты начала службы эффективнее использовать предварительно созданное объяснение даты в библиотеке объяснений:

  1. В разделе объяснений, выберите Создать, и затем выберите Из библиотеки объяснений.

  2. В библиотеке объяснений выберите Дата. Вы можете просмотреть все варианты распознаваемой даты.

  3. Нажмите кнопку Добавить.

    Библиотека объяснений.

  4. На странице Создание объяснения информация о дате из библиотеки объяснений автоматически заполняет поля. Нажмите Сохранить.

    Дата.

Обучение модели

Сохранение объяснения начинает обучение. Если в вашей модели достаточно сведений для извлечения данных из помеченных примеров файлов, вы увидите каждый файл с меткой Match.

Матч.

Если в объяснении недостаточно сведений для поиска данных, которые требуется извлечь, каждый файл будет помечен как Несоответствие. Чтобы просмотреть дополнительные сведения о несоответствии, можно выбрать пункт Несовпадение файлов.

Добавление другого объяснения

Часто несоответствие указывает на то, что предоставленное объяснение не предоставляет достаточно сведений для извлечения значения даты начала службы в соответствии с нашими помеченными файлами. Может потребоваться изменить его или добавить другое объяснение.

В нашем примере обратите внимание, что текстовая строка Начало даты службы всегда предшествует действительному значению. Чтобы помочь определить дату начала службы, необходимо создать объяснение фразы.

  1. В разделе «Объяснения» выберите Создать и введите имя (например Строка префикса).

  2. Для «Типа» выберите Список фраз.

  3. Используйте в качестве значения Дату начала службы.

  4. Нажмите Сохранить.

    Строка префикса.

Повторное обучение модели

Сохранение объяснения запускает обучение снова, на этот раз с использованием обоих объяснений в примере. Если в вашей модели достаточно сведений для извлечения данных из помеченных примеров файлов, вы увидите каждый файл с пометкой Соответствует.

Если вы снова получаете сообщение Не соответствует в помеченных файлах, вероятно, вам потребуется создать другое объяснение, чтобы предоставить модели больше сведений для определения типа документа или рассмотреть возможность внесения изменений в существующие.

Тестирование модели

Если вы получили сообщение о соответствии помеченных файлов примеров, вы можете протестировать свою модель на оставшихся примерах файлов без меток. Этот шаг необязателен, но полезен для оценки "пригодности" или готовности модели перед ее использованием путем ее тестирования в файлах, которые модель не видела ранее.

  1. На домашней странице модели выберите вкладку Тест . Это приведет к запуску модели в файлах примеров без меток.

  2. В списке Тестовые файлы отображаются ваши примеры файлов, чтобы показать, может ли модель извлечь необходимые вам сведения. Используйте эти сведения, чтобы определить эффективность классификатора в определении ваших документов.

    Тестирование ваших файлов.

Дальнейшее уточнение средства извлечения

Если у вас есть повторяющиеся сущности и вы хотите извлечь только одно значение или определенное количество значений, можно задать правило, чтобы указать способ обработки. Чтобы добавить правило для уточнения извлеченных сведений, выполните следующие действия.

  1. На домашней странице модели в разделе Извлекатели сущностей выберите средство извлечения, которое требуется уточнить, а затем выберите Уточнить извлеченные сведения.

    Снимок экрана: раздел

  2. На странице Уточнение извлеченных сведений выберите одно из следующих правил:

    • Сохраните одно или несколько первых значений
    • Сохранение одного или нескольких последних значений
    • Удаление повторяющихся значений
    • Сохранение одной или нескольких первых строк
    • Сохраните одну или несколько последних строк

    Снимок экрана: страница уточнение извлеченных сведений с параметрами правил.

  3. Введите количество строк или значений, которые вы хотите использовать, а затем нажмите кнопку Уточнить.

  4. Если вы хотите изменить правило, изменив количество строк или значений, выберите средство извлечения, которое нужно изменить, выберите Уточнить извлеченные сведения, измените номер и нажмите кнопку Сохранить.

  5. При тестировании средства извлечения вы увидите уточнение в столбце Результат уточнения списка Файлы тестирования .

    Список

  6. Если вы хотите удалить правило уточнения в средстве извлечения, выберите средство извлечения, из которого требуется удалить правило, выберите Уточнить извлеченные сведения, а затем нажмите кнопку Удалить.

См. также

Создание классификатора

Типы объяснения

Использование таксономии банка терминов при создании средства извлечения

Режим специальных возможностей Syntex