Поделиться через


Редактор преобразования «Извлечение терминов» (вкладка «Дополнительно»)

Вкладка Дополнительно диалогового окна Редактор преобразования «Извлечение терминов» используется для задания свойств извлечения, таких как частота, длина и предмет извлечения (слова или фразы).

Дополнительные сведения о преобразовании «Извлечения терминов» см. в разделе Преобразование «Извлечение терминов».

Параметры

  • Имя существительное
    Указывает, что при преобразовании будут извлекаться только отдельные существительные.

  • Субстантивное словосочетание
    Указывает, что при преобразовании будут извлекаться только субстантивные словосочетания.

  • Имя существительное и субстантивное словосочетание
    Указывает, что при преобразовании будут извлекаться как существительные, так и субстантивные словосочетания.

  • Частота
    Указывает, что целевой функцией является частота термина.

  • TFIDF
    Указывает, что целевой функцией является значение TFIDF термина. Функция TFIDF расшифровывается как «частота термина и обратная частота документа» (Term Frequency and Inverse Document Frequency) и определяется формулой: TFIDF термина T = (частота_T) * log( (#число_строк_во_входных_данных) / (#число_строк_включающих_T)

  • Порог частоты
    Позволяет задать число вхождений слова или фразы, необходимое для их извлечения. Значение по умолчанию равно 2.

  • Максимальная длина термина
    Позволяет задать максимальную длину фразы или слова. Этот параметр затрагивает только субстантивные словосочетания. Значение по умолчанию равно 12.

  • Учитывать регистр при извлечении терминов
    Указывает, будет ли учитываться регистр при извлечении. Значение по умолчанию False.

  • Настройка вывода ошибок
    Диалоговое окно Настройка вывода ошибок используется для задания метода обработки ошибок для строк, вызывающих ошибки.