Поделиться через


Преобразование "Уточняющий запрос термина"

Область применения: среда выполнения интеграции SSIS SQL Server в Фабрика данных Azure

Преобразование «Уточняющий запрос термина» сопоставляет термины, извлеченные из текста во входном столбце преобразования, с терминами, содержащимися в ссылочной таблице. Затем оно подсчитывает количество найденных терминов в таблице уточняющих запросов входного набора данных и записывает количество повторений вместе с термином из ссылочной таблицы в столбец на выходе преобразования. Это преобразование полезно для создания пользовательского списка слов на основе входного текста, дополненного статистикой повторяемости слова.

Перед тем как преобразование «Уточняющий запрос термина» выполнит поиск, оно извлекает слова из текста входного столбца, используя тот же метод, что и преобразование «Извлечение терминов».

  • Текст разбивается на предложения.

  • Предложения разбиваются на слова.

  • Слова нормализуются.

Для дальнейшего уточнения искомых термов преобразование «Уточняющий запрос термина» может быть настроено для выполнения поиска совпадений с учетом регистра.

Matches

Преобразование «Уточняющий запрос термина» выполняет операцию поиска и затем возвращает значение, используя следующие правила.

  • Если преобразование настроено для проведения поиска, чувствительного к регистру, то совпадения с отличающимся регистром не учитываются. Например, ученик и УЧЕНИК считаются разными словами.

    Примечание.

    Слово, начинающееся с заглавной буквы в начале предложения, может быть признано совпадающим со словом, начинающимся со строчной буквы. Например, совпадение между ученик и Ученик признается действительным, если Ученик является первым словом предложения.

  • Если множественное число существительного или субстантивное словосочетание существует в ссылочной таблице, то уточняющий запрос учитывает совпадение существительного или словосочетания с ним только во множественном числе. Например, все экземпляры слова ученики будут рассматриваться отдельно от экземпляров слова ученик.

  • Если в ссылочной таблице найдено слово только в единственном числе, то совпадениями будут признаны слова и во множественном, и в единственном числе. Например, если таблица уточняющих запросов содержит ученики преобразование находит слова ученик и ученики, то оба слова будут считаться соответствиями искомого термина ученик.

  • Если текст входного столбца является аннотированной фразой с существительным, то нормализации подвергается только последнее слово субстантивного словосочетания. Например, аннотированной версией фразы предписания врачей является предписание врача.

Когда искомый элемент содержит термины, которые перекрываются в эталонном наборе, то есть элемент термина найден более чем в одной эталонной записи, то преобразование "Уточняющий запрос термина" возвращает только один результат поиска. В следующем примере показан результат, когда искомый термин содержит перекрывающийся элемент. В этом случае перекрывающийся элемент — Windows, который найден в двух эталонных терминах. Однако преобразование возвращает не два результата, а только один эталонный термин, Windows. Второй эталонный термин, Windows 7 Профессиональная, не возвращается.

Товар Значение
Входной термин Windows 7 Профессиональная
Эталонные термины Windows, Windows 7 Профессиональная
Выходные данные Windows

Преобразование «Уточняющий запрос термина» может сопоставлять существительные и субстантивные словосочетания, которые содержат специальные символы, и данные в ссылочной таблице также могут содержать эти символы. Специальные символы: %, @, &, $, #, *, :, ;, . , , , ?,<>, , +, =, ^, ^, ~, |, /, (, ), [, ], {, }, ", " и ".

Типы данных

В преобразовании «Уточняющий запрос термина» может использоваться только столбец, содержащий данные типа DT_WSTR или DT_NTEXT. Если столбец содержит текст, не принадлежащий ни к одному из этих типов данных, то преобразование «Конвертация данных» может добавить столбец с типом данных DT_WSTR или DT_NTEXT к потоку данных и скопировать значения столбца в этот новый столбец. Выходные данные преобразования «Конвертация данных» могут быть использованы в качестве входных данных преобразования «Уточняющий запрос термина». Дополнительные сведения см. в статье Data Conversion Transformation.

Настройка преобразования «Уточняющий запрос термина»

Преобразование "Уточняющий запрос термина" содержит свойство InputColumnType, которое указывает назначение столбца. InputColumnType может содержать следующие значения:

  • значение 0 указывает, что столбец передан сразу на выход и не использовался в уточняющем запросе;

  • значение 1 указывает, что столбец использовался только в уточняющем запросе;

  • значение 2 указывает, что столбец передан на выход и также был использован в уточняющем запросе.

Выходные столбцы преобразования, для свойства InputColumnType которых задано значение 0 или 2, содержат свойство CustomLineageID столбца, в котором хранится идентификатор журнала обращений и преобразований, назначенный столбцу компонентом восходящего потока данных.

Преобразование «Уточняющий запрос термина» добавляет два столбца в вывод преобразования с именами по умолчанию Term и Frequency. СтолбецTerm содержит термин из таблицы подстановки, а столбец Frequency — количество вхождений термина из ссылочной таблицы во входном наборе данных. Эти столбцы не содержат свойство CustomLineageID.

Таблица подстановки должна быть таблицей в SQL Server или базе данных Access. Если выход преобразования «Извлечение терминов» сохраняется в таблице, то эта таблица может быть использована в качестве ссылочной, однако можно использовать и другие таблицы. Текст в неструктурированных файлах, книги Excel или другие источники должны быть импортированы в базу данных SQL Server или базу данных Access, прежде чем использовать преобразование "Поиск терминов".

Преобразование «Уточняющий запрос термина» использует отдельное соединение OLE DB для подключения к ссылочной таблице. Дополнительные сведения см. в разделе Диспетчер соединений OLE DB.

Преобразование «Уточняющий запрос термина» работает в режиме полного предварительного кэширования. Во время выполнения преобразование «Уточняющий запрос термина» производит чтение терминов из ссылочной таблицы и перед обработкой входных строк преобразования сохраняет их в своей собственной памяти.

Так как термины строки входного столбца могут повторяться, обычно выходные данные преобразования «Уточняющий запрос термина» содержат больше строк, чем входные.

Преобразование имеет один вход и один выход. Оно не поддерживает выход ошибок.

Свойства могут быть заданы с помощью конструктора SSIS или программным путем.

Дополнительные сведения о свойствах, которые вы можете задать в диалоговом окне Расширенный редактор или программными средствами, см. в следующих разделах.

Дополнительные сведения о настройке свойств см. в разделе Установление свойств компонента потока данных.

Редактор преобразований «Уточняющий запрос термина» (вкладка «Уточняющий запрос термина»)

Вкладка Уточняющий запрос термина диалогового окна Редактор преобразования «Уточняющий запрос термина» позволяет сопоставить входной столбец с уточняющим столбцом в ссылочной таблице и предоставить псевдоним каждому выходному столбцу.

Параметры

Доступные входные столбцы
Используя флажки, выберите входные столбцы, которые не должны измениться на выходе. Перетащите входной столбец в список Доступные ссылочные столбцы , чтобы сопоставить его с уточняющим столбцом в ссылочной таблице. Входной столбец и уточняющий столбец должны иметь одинаковый тип данных: DT_NTEXT или DT_WSTR. Выберите строку сопоставления и щелкните ее правой кнопкой мыши, чтобы изменить ее в диалоговом окне Создание связей .

Доступные ссылочные столбцы
Просмотрите список доступных столбцов в ссылочной таблице. Выберите столбец, содержащий список нужных терминов.

Передаваемый столбец
Выберите входной столбец из списка имеющихся входных столбцов. Выбранные столбцы обозначаются флажками в таблице Доступные входные столбцы .

Псевдоним выходного столбца
Введите псевдоним для каждого выходного столбца. По умолчанию, это имя столбца, но можно выбрать любое уникальное описательное имя.

Настройка вывода ошибок
Используйте диалоговое окно Настройка вывода ошибок для указания параметров обработки ошибок для строк, вызвавших ошибку.

Редактор преобразования «Уточняющий запрос терминов» (вкладка «Ссылочная таблица»)

Вкладка Ссылочная таблица диалогового окна Редактор преобразования "Уточняющий запрос термина" используется для установки соединения со ссылочной таблицей (таблицей уточняющих запросов).

Параметры

Диспетчер соединений OLE DB
Выберите из списка существующий диспетчер соединений или создайте новое соединение, нажав кнопку Создать.

Новый
Создайте новое соединение с помощью диалогового окна Настройка диспетчера соединений OLE DB .

Имя ссылочной таблицы
Позволяет выбрать таблицу или представление уточняющих запросов из базы данных путем выбора элемента из списка. Таблица или представление должны содержать столбец с существующим списком терминов, с которыми можно сравнивать текст исходного столбца.

Настройка вывода ошибок
Используйте диалоговое окно Настройка вывода ошибок для указания параметров обработки ошибок для строк, вызвавших ошибку.

Редактор преобразования «Уточняющий запрос термина» (вкладка «Дополнительно»)

Используйте вкладку Дополнительно диалогового окна Редактор преобразования "Уточняющий запрос термина" для указания, должен ли при поиске учитываться регистр.

Параметры

Использовать уточняющий запрос термина с учетом регистра
Укажите, учитывается ли при уточняющем запросе регистр. По умолчанию False.

Настройка вывода ошибок
Используйте диалоговое окно Настройка вывода ошибок для указания параметров обработки ошибок для строк, вызвавших ошибку.

См. также

Справочник по сообщениям об ошибках служб Integration Services
Преобразование "Извлечение терминов"