Преобразование «Извлечение терминов»
Преобразование «Извлечение терминов» извлекает термины из текста во входном столбце преобразования, а затем записывает термины в выходной столбец преобразования. Это преобразование работает только с англоязычным текстом и использует собственный словарь и лингвистические сведения об английском языке.
Можно использовать преобразование «Извлечение терминов» для выяснения содержимого набора данных. Например, текст, содержащий сообщения электронной почты, предоставит полезные сведения о продуктах, поэтому можно использовать преобразование «Извлечение терминов», чтобы извлечь обсуждаемые в сообщениях темы для последующего анализа информации.
Преобразование «Извлечение терминов» может извлекать только существительные, только субстантивные словосочетания или как существительные, так и именные словосочетания. Субстантивные словосочетания состоят как минимум из двух слов, одно из которых — имя существительное, а другое — существительное или прилагательное. Например, если преобразование настроено на извлечение только существительных, оно извлекает такие термины, как bicycle и landscape; если же преобразование настроено на извлечение субстантивных словосочетаний, оно извлекает такие термины, как new blue bicycle, bicycle helmet и boxed bicycles.
Артикли и местоимения не извлекаются. Например, преобразование «Извлечение терминов» извлекает термин bicycle из текста the bicycle, my bicycle и that bicycle.
Преобразование «Извлечение терминов» нормализует слова таким образом, что версии написания слова прописными и строчными буквами не рассматривается как различные термины. Например, в текстах You see many bicycles in Seattle и Bicycles are blue термины bicycles и Bicycles распознаются как один и тот же термин, и преобразование оставляет только bicycle. Имена собственные и слова, не содержащиеся во внутреннем словаре, не нормализуются.
Преобразование «Извлечение терминов» также выделяет основу существительных, чтобы извлекать только существительные в единственном числе. Например, преобразование извлекает man из men, mouse из mice и bicycle из bicycles. Для приведения слов к их корневым формам преобразование использует словарь. Герундий, обнаруженный в словаре, рассматривается как существительное.
Преобразование «Извлечение терминов» работает только с текстом в столбцах, имеющих тип данных DT_WSTR или DT_NTEXT. Если столбец содержит текст, но относится к другому типу данных, можно воспользоваться преобразованием «Конвертация данных» для добавления столбца с типом данных DT_WSTR или DT_NTEXT к потоку данных и для копирования значений столбца в новый столбец. Выход преобразования «Конвертация данных» может быть использован как вход для преобразования «Извлечение терминов». Дополнительные сведения см. в разделе Преобразование «Конвертация данных».
Преобразование «Извлечение терминов» формирует оценку каждого извлеченного термина. Оценка может быть либо значением TFIDF, либо просто частотой, то есть количеством появлений нормализованного термина во входных текстах. В любом случае оценка представляется положительным вещественным числом. Например, оценка TFIDF может иметь значение 0,5, а частота может иметь значение 1,0 или 2,0.
При желании преобразование «Извлечение терминов» может ссылаться на столбец в таблице, содержащий исключаемые термины, то есть термины, которые преобразование должно пропускать при извлечении терминов из набора данных. Это полезно, когда существует набор терминов, уже обозначенных как несущественные в том или ином бизнесе или индустрии — обычно из-за того, что термин встречается так часто, что становится неучитываемым словом. Например, при извлечении терминов из набора данных, который содержит сведения о поддержке пользователей для отдельной марки машины, само название марки может быть исключено, так как оно встречается слишком часто, чтобы иметь значение. Таким образом, значения в списке исключений должны иметь непосредственное отношение к набору данных, который обрабатывается.
При добавлении термина в список исключений все содержащие его термины, будь то слова или субстантивные словосочетания, также исключаются. Например, если список исключений содержит единственное слово data, все термины, содержащие это слово, такие как data, data mining, data integrity и data validation, тоже будут исключаться. Если надо исключить только сложные слова, содержащие слово data, следует явным образом добавить эти составные термины в список исключений. Например, если надо извлекать вхождения слова data, но исключать data validation, то следует добавить data validation в список исключений и убедиться, что слово data удалено из списка.
Ссылочная таблица должна быть таблицей в SQL Server 2000, в SQL Server или в базе данных Access. Преобразование «Извлечение терминов» использует отдельное соединение OLE DB для подключения к ссылочной таблице. Дополнительные сведения см. в разделе Диспетчер соединений OLE DB.
Преобразование «Извлечение терминов» работает в режиме с полным предварительным кэшированием. Во время выполнения преобразование «Извлечение терминов» считывает термины-исключения из ссылочной таблицы и сохраняет их в собственной памяти, перед тем как приступать к обработке входных строк преобразования.
Если извлеченные термины записываются в таблицу, они могут быть использованы другим преобразованием, таким как преобразование «Поиск терминов», «Нечеткий поиск» или «Уточняющий запрос».
Выход преобразования «Извлечение терминов» включает только два столбца. Один столбец содержит извлеченные термины, а другой — их оценку. По умолчанию столбцы называются Term и Score. Текстовый столбец входа может содержать несколько терминов, поэтому на выходе преобразования «Извлечение терминов» обычно получается больше строк, чем на входе.
Преобразование «Извлечение терминов» использует внутренние алгоритмы и статистические модели для формирования результатов. Возможно, понадобится несколько раз запустить преобразование «Извлечение терминов» и изучить полученные результаты, чтобы настроить преобразование таким образом, чтобы оно формировало приемлемые результаты для решения интеллектуального анализа текста.
Преобразование «Извлечение терминов» имеет один стандартный вход, один выход и один выход ошибок.
Извлечение терминов из текста
Чтобы извлечь термины из текста, преобразование «Извлечение терминов» выполняет следующие задачи.
Маркирование текста
Сначала преобразование «Извлечение терминов» идентифицирует слова путем выполнения следующих задач.
Разделение текста на слова с использованием пробелов, знаков конца строки и других признаков конца слов в английском языке. Например, знаки препинания, такие как ? и :, являются символами-разделителями слов.
Сохранение слов, соединенных дефисами и символами подчеркивания. Например, слова copy-protected и read-only остаются одним словом.
Сохранение акронимов, включающих точки. Например, A.B.C Company будет маркировано как ABC и Company.
Разделение слов специальными символами. Например, слово date/time извлекается как date и time, (bicycle) — как bicycle, а C# рассматривается как C. Специальные символы пропускаются и не могут быть использованы.
Распознавание случаев, когда специальные символы, такие как апостроф, не разбивают слова. Например, слово bicycle's не разбивается на два слова, а преобразуется в единственный термин bicycle (существительное).
Разделение выражений времени, денежных сумм, адресов электронной почты и почтовых адресов. Например, дата January 31, 2004 разделяется на три токена: January, 31 и 2004.
Тегирование слов
Во-вторых, преобразование «Извлечение терминов» помечает слова как следующие части речи.
Существительное в единственном числе. Например, bicycle и potato.
Существительное во множественном числе. Например, bicycles и potatoes. Все существительные во множественном числе, которые не приведены к словарной форме, приводятся к корневой форме.
Имя собственное в единственном числе. Например, April и Peter.
Имя собственное во множественном числе. Например, Aprils и Peters. Чтобы имя собственное приводилось к корневой форме, оно должно быть частью внутреннего лексикона, ограниченного обычными словами английского языка.
Прилагательное. Например, blue.
Прилагательное в сравнительной степени, сравнивающее две вещи. Например, higher и taller.
Прилагательное в превосходной степени, определяющее вещь, имеющую качество высшего или низшего уровня. Например, highest и tallest.
Числительное. Например, 62 и 2004.
Слова, не являющиеся этими частями речи, не учитываются. Например, не учитываются глаголы и местоимения.
Примечание |
---|
Разметка частей речи основана на статистической модели и может быть не вполне точной. |
Если преобразование «Извлечение терминов» настроено на извлечение лишь существительных, то извлекаются только те слова, которые помечены как существительные или имена собственные в единственном и множественном числе.
Если преобразование «Извлечение терминов» настроено на извлечение только именных словосочетаний, то слова, помеченные как существительные, имена собственные, прилагательные и числительные, могут быть скомбинированы в субстантивное словосочетание, но словосочетание должно содержать как минимум одно слово, помеченное как существительное или имя собственное в единственном или множественном числе. Например, субстантивное словосочетание highest mountain содержит слово, помеченное как прилагательное превосходной степени (highest), и слово, помеченное как существительное (mountain).
Если преобразование «Извлечение терминов» настроено на извлечение и существительных, и субстантивных словосочетаний, то применяются оба правила. Например, преобразование извлекает bicycle и beautiful blue bicycle из текста many beautiful blue bicycles.
Примечание |
---|
Извлекаемые термины подвергаются проверке порогов максимальной длины термина и частоты, используемых преобразованием. |
Приведение слов к корневой форме
В-третьих, преобразование «Извлечение терминов» приводит слова к словарной форме с использованием внутреннего словаря, как показано в следующих примерах.
Удаление s из существительных (английская форма множественного числа). Например, bicycles становится bicycle.
Удаление s из существительных (английская форма множественного числа). Например, stories становится story.
Извлечение единственного числа для неправильных форм множественного числа существительных из словаря. Например, geese становится goose.
Нормализация слов
Преобразование «Извлечение терминов» нормализует термины, написанные с прописной буквы только из-за их позиции в предложении, и использует их строчную форму. Например, во фразах Dogs chase cats и Mountain paths are steep термины Dogs и Mountain будут нормализованы в dog и mountain.
Использование нормализации с учетом регистра
Преобразование «Извлечение терминов» может быть настроено таким образом, чтобы рассматривать слова в нижнем и верхнем регистрах как различные термины или как различные варианты одного и того же термина.
Если преобразование настроено на распознавание различий в регистре, то такие термины, как Method и method, извлекаются как различные. Слова, написанные с прописной буквы и не являющиеся первыми в предложении, не нормализуются и помечаются как имена собственные.
Если преобразование настроено так, что не учитывает регистр, то такие термины, как Method и method, извлекаются как один термин. Список извлеченных терминов может включать Method или method в зависимости от того, какое слово первым появилось во входном наборе данных. Если слово Method написано с прописной буквы только из-за того, что является первым в предложении, оно извлекается в нормализованной форме.
Границы слов и предложений
Преобразование «Извлечение терминов» разделяет текст на предложения с использованием следующих символов в качестве границ предложений.
Символы разбиения строк ASCII 0x0d (возврат каретки) и 0x0a (перевод строки). Эти символы используются как граница предложения, когда в строке идут два или более подобных символа подряд.
Дефисы (-). Этот символ может служить границей предложения, если символы слева и справа не являются буквами.
Подчеркивание (_). Этот символ может служить границей предложения, если символы слева и справа не являются буквами.
Все символы Юникод с кодами, меньшими или равными 0x19 или большими или равными 0x7b.
Сочетания чисел, знаков препинания и символов алфавита. Например, A23B#99 возвращает термин A23B.
Символы %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “ и ‘.
Примечание Акронимы, включающие одну или более точек (.), не разделяются на несколько предложений.
Затем преобразование «Извлечение терминов» разделяет предложение на слова, используя следующие границы слов:
пробел;
табуляция;
ASCII 0x0d (возврат каретки);
ASCII 0x0a (перевод строки).
Примечание Если апостроф найден в слове, которое является сокращением, таким как we're или it's, слово разбивается на апострофе; в противном случае буквы после апострофа удаляются. Например, we're разбивается на we и 're, а bicycle's сокращается до bicycle.
Настройка преобразования «Извлечение терминов»
Свойства задаются программно или через конструктор служб SSIS.
Дополнительные сведения о настройках, задаваемых в диалоговом окне Редактор преобразования «Извлечение терминов», см. в следующих разделах.
Редактор преобразования «Извлечение терминов» (вкладка «Извлечение терминов»)
Редактор преобразования «Извлечение терминов» (вкладка «Исключения»)
Редактор преобразования «Извлечение терминов» (вкладка «Дополнительно»)
Дополнительные сведения о свойствах, которые можно задать программно или в диалоговом окне Расширенный редактор, см. в следующих разделах:
Дополнительные сведения об установке свойств см. в разделе Как установить свойства компонента потока данных.
|