transformacja wyodrębniania termin
transformacja wyodrębniania termin wyciągów z tekstu w warunkach dane wejściowe transformacja kolumna, a następnie zapisuje terminy do transformacja wyjściowego kolumna.transformacja działa tylko w przypadku tekstu w języku angielskim i wykorzystuje własny słownik języka angielskiego i językowe informacji na temat języka angielskiego.
Za pomocą transformacja wyodrębniania termin wykrywanie zawartości zestaw danych.Na przykład tekst, który zawiera wiadomości e-mail może dostarczyć użytecznych informacji zwrotnych dotyczących produktów, tak, aby można było za pomocą transformacja wyodrębniania termin wyodrębnić tematy dyskusji w wiadomości, jako sposobu analizowania opinii.
transformacja wyodrębniania termin można wyodrębnić tylko rzeczowniki, rzeczownik frazy, lub zarówno rzeczowniki i rzeczownik faz.Rzeczownik to pojedynczy rzeczownik; frazy rzeczownik jest co najmniej dwóch wyrazów, których jedna jest rzeczownik i drugi jest rzeczownik lub przymiotnik.Na przykład jeśli transformacja używa opcji tylko rzeczowniki, jego wyodrębnia warunków, takich jak rower and poziomo; Jeśli transformacja używa opcji rzeczownik frazę, wyodrębnia jego warunki, takie jak nowe roweru niebieski, Kask roweru, and rowery ramkach.
Artykuły i Zaimki nie są wyodrębniane.Na przykład transformacja wyodrębniania termin wyodrębnia termin rower z tekstu roweru, Moje roweru, and Ten roweru.
transformacja wyodrębniania termin normalizuje wyrazy, aby wielkimi i noncapitalized wersjach wyrazy nie są traktowane jako różnych warunków.Na przykład w tekście Zobacz wiele rowerów w Seattle and Rowery są niebieskie, rowery and Rowery są rozpoznawane jako tego samego terminu i transformacja przechowuje tylko rower.Rzeczowniki własnych i wyrazy, które nie zostały wymienione w słowniku wewnętrzne nie są znormalizowane.
Transformacja wyodrębniania termin wynika także rzeczowniki wyodrębnić tylko pojedynczą formularz rzeczownik.Na przykład wyodrębnia transformacja ludzie from mężczyzn, myszy from myszy, and rower from rowery.transformacja używa słownika wynika rzeczowniki.Gerunds są traktowane jako rzeczowniki, jeśli są one w słowniku.
Transformacja wyodrębniania termin może pracować tylko z tekstem kolumna, która zawiera DT_WSTR lub typ danych DT_NTEXT.Jeśli kolumna zawiera tekst, ale nie ma jednego z tych typów danych, transformacja konwersji danych mogą być używane do dodania kolumny z DT_WSTR lub DT_NTEXT danych typu przepływ danych i kopiować wartości kolumny do nowej kolumny.Następnie dane wyjściowe z transformacja konwersji danych można używać jako dane wejściowe do przekształcania wyodrębniania termin.Aby uzyskać więcej informacji zobacztransformacja konwersji danych.
Transformacja wyodrębniania termin generuje wynik dla każdego warunku, który wyodrębnia go.Wynik może być wartością TFIDF lub surowego częstotliwości, co oznacza, ile razy pojęcie znormalizowanych pojawia się w danych wejściowych.W obu przypadkach wynik jest reprezentowany przez liczbą rzeczywistą, która jest większa niż 0.Na przykład wynik TFIDF mogą mieć wartość 0,5 i częstotliwość byłoby wartości, takie jak 1.0 lub 2.0.
Opcjonalnie wyodrębniania termin transformacja odwoływania się do kolumna w tabela, która zawiera warunki wykluczeń, co oznacza warunków, że transformacja należy pominąć, gdy go wyodrębnia terminów z zestaw danych.Jest to przydatne, gdy zestaw warunków został już określony jako wpływu określonego rodzaju i branży, zazwyczaj ponieważ termin występuje w przypadku takich wysokiej częstotliwości on staje się wyraz ignorowany.Na przykład podczas wyodrębniania terminów z zestaw danych, który będzie zawierał odbiorcy informacje techniczne dotyczące określonej marki samochodów, samą nazwę marki mogą być wykluczony, ponieważ są one wymienione zbyt często mają istotność.Dlatego wartości na liście wykluczeń muszą być dostosowane do pracy z zestaw danych.
Po dodaniu warunku do listy wykluczeń, wszystkie warunki — słów lub fraz rzeczownik — które zawierają wyrazy są również wyłączone.Na przykład, jeśli na liście wykluczeń znajdują się pojedyncze słowo dane, a następnie wszystkie warunki, które zawierają ten wyraz, na przykład dane, wyszukiwanie danych, integralność danych, and Sprawdzanie poprawności danych zostaną wykluczone.Jeśli chcesz wykluczyć tylko związki zawierających wyraz dane, należy jawnie dodać te warunki złożone, do listy wykluczeń.Na przykład, jeśli mają zostać wyodrębnione przypadków z dane, ale wykluczyć Sprawdzanie poprawności danych, można dodać Sprawdzanie poprawności danych z wyłączeniem listę i upewnij się, że dane jest usuwany z listy wykluczeń.
Z tabela referencyjna musi być w tabeli SQL Server 2000, SQL Server, lub bazy danych programu Access. Transformacja wyodrębniania termin używa oddzielnego połączenia OLE DB do łączenia się z tabela referencyjna.Aby uzyskać więcej informacji zobaczMenedżer połączeń OLE DB.
Transformacja wyodrębniania termin działa w trybie pełnego precached.W czasie wykonywania transformacja wyodrębniania termin odczytuje warunki wykluczenia z tabela referencyjna i przechowuje je w prywatnej pamięci przed przetwarza wszystkie wiersze danych wejściowych transformacja.
Jeśli warunki wyodrębnione są zapisywane do tabela, można ich używać w innych transformacja wyszukiwania, takie jak termin wyszukiwanie, Wyszukiwanie rozmyte i przekształceń wyszukiwania.
Dane wyjściowe transformacja wyodrębniania termin obejmują tylko dwie kolumny.Jedna kolumna zawiera wyodrębnione terminy i inne kolumny zawiera wynik.Domyślne nazwy kolumn są Term i Score. Ponieważ tekst kolumna w danych wejściowych może zawierać wiele warunków, danych wyjściowych transformacja wyodrębniania termin zazwyczaj ma więcej wierszy niż dane wejściowe.
transformacja wyodrębniania tekstu używa wewnętrznego algorytmów i modeli statystycznych do generowania jego wyniki.Czasami trzeba uruchomić transformacja wyodrębniania termin kilka razy i przejrzeć wyniki do skonfigurowania transformacja do wygenerowania, rodzaj wyniki działania rozwiązania wyszukiwania tekstu.
Transformacja wyodrębniania termin ma jedno wejście regularnych, dane wyjściowe jednego i jeden błąd w danych wyjściowych.
Wyodrębnianie warunki z tekstu
Aby wyodrębnić terminy z tekstu, transformacja wyodrębniania termin wykonuje następujące zadania.
Tokenizing tekstu
Po pierwsze transformacja wyodrębniania termin identyfikuje słowa, wykonując następujące czynności:
Rozdzielanie tekstu na słowa, przy użyciu spacji, podziały wierszy i innych terminatory wyrazów w języku angielskim.Na przykład znaki interpunkcyjne takie jak znaczniki ? and : to znaki dzielenia wyrazów.
Zachowywanie wyrazy, które są połączone przy użyciu łączniki lub podkreślenia.Na przykład wyrazy chronione przed kopiowaniem and tylko do odczytu pozostają o jeden wyraz.
Przechowywanie nienaruszone akronimy, które zawierają okresy.Na przykład A.B.C Firma może być tokenized jako ABC and Firma.
Dzielenie wyrazów na znaki specjalne.Na przykład wyraz Data/Godzina ekstrahuje Data and czas, (rower) as roweri C# jest traktowany jako C. Znaki specjalne są odrzucane i nie może być lexicalized.
Rozpoznaje, kiedy znaki specjalne, takie jak znak apostrof nie należy podzielić wyrazy.Na przykład wyraz roweru firmy nie jest podzielony na dwa słowa i zwraca pojedynczy termin rower (rzeczownik).
Dzielenie wyrażenia czas, pieniężnej wyrażeń, adresy e-mail i adresów pocztowych.Na przykład data 31 Stycznia 2004 r. jest podzielone na trzy tokeny Styczeń, 31, and 2004 r..
Znakowanie wyrazów
Po drugie transformacja wyodrębniania termin znaczniki słów jako jedną z następujących funkcji rozpoznawania mowy z części:
Rzeczownik w postaci pojedynczej.Na przykład rower and ziemniaczanej.
Rzeczownik w liczbie mnogiej formularza.Na przykład rowery and ziemniaków.Wszystkie rzeczowniki mnogiej, które nie są lemmatized podlegają wynikające.
Prawidłowe rzeczownik się w postaci pojedynczej.Na przykład Kwiecień and Peterowi.
Prawidłowe rzeczownik się w formularzu w liczbie mnogiej.Na przykład Aprils and Peters.Dla własnych rzeczownik się odbywać się mapowanie rdzeni musi być częścią Leksykon wewnętrzna, która jest ograniczona do standardowego angielskiego wyrazy.
Przymiotnik.Na przykład niebieski.
Przymiotnik porównawcze polegających na porównywaniu dwóch czynności.Na przykład wyższe and wyższe.
Przymiotnik superlative identyfikujący pierwsze o wysokiej jakości powyżej lub poniżej poziom co najmniej dwóch innych osób.Na przykład najwyższy and najwyższego.
Liczba.Na przykład 62 and 2004 r..
Słowa, które nie są jednym z tych części listu mowy są odrzucane.Na przykład zlecenia i Zaimki są odrzucane.
Uwaga
Znakowanie części z funkcji rozpoznawania mowy jest oparty na modelu statystycznych i znakowanie może nie być dokładne.
Transformacja wyodrębniania termin został skonfigurowany tak, aby wyodrębnić tylko rzeczowniki, wyodrębniane są tylko wyrazy, które są oznakowane jako pojedynczej lub mnogiej formy rzeczowniki i rzeczowniki własnych.
transformacja wyodrębniania termin został skonfigurowany tak, aby wyodrębnić tylko rzeczownik zwroty, wyrazy, które są oznakowane jako rzeczowniki rzeczowniki własnych, przymiotników i numerów mogą być łączone dokonać frazę rzeczownik, ale frazę musi zawierać co najmniej jeden wyraz, który jest oznakowany jako formularz pojedynczej lub mnogiej rzeczownik lub rzeczownik własnych.Na przykład wyrażenie rzeczownik najwyższy górskie łączy oznakowane jako superlative przymiotnik ( wyrazunajwyższy) i oznakowane jako rzeczownik ( wyrazuGórski).
Wyodrębniania termin został skonfigurowany tak, aby wyodrębnić rzeczowniki i fraz rzeczownik, zastosowanie zarówno dla rzeczowniki zasad i zasady rzeczownik frazy.Na przykład wyodrębnia transformacja rower and piękne roweru niebieski z tekstu wiele piękne rowerów niebieski.
Uwaga
Warunki wyodrębnione podlegają maksymalną termin próg długości i częstotliwości transformacja zastosowań.
Mapowanie rdzeni słów
Po trzecie transformacja wyodrębniania termin wynika wyrazów do słownika formularza przedstawioną w tym przykładzie za pomocą słownika wewnętrznych do przekształcania wyodrębniania termin.
Usuwanie s z rzeczowniki.Na przykład rowery becomes rower.
Usuwanie ak z rzeczowniki.Na przykład wątki becomes Wątek.
Pobiera pojedynczą formularza dla nieprawidłowych rzeczowniki ze słownika.Na przykład gęsi becomes gęś.
Normalizowanie wyrazów
transformacja wyodrębniania termin normalizuje terminy, które kapitalizacji tylko z powodu ich położenie w obrębie zdania, a następnie używa zamiast tego formularza nie kapitalizacji.Na przykład w oznaczeniach Psy chase kotów and Górski ścieżki są ostry, Psy and Górski mogłyby być znormalizowane do pies and Górski.
Za pomocą przypadek-Sensitive normalizacji
Wyodrębnianie termin transformacja można skonfigurować tak, aby należy wziąć pod uwagę wielkich i małych liter wyrazów albo różne terminy lub różne odmiany tego samego terminu.
Jeśli transformacja jest skonfigurowany do rozpoznawania różnice przypadek, takich jak terminy Metoda and Metoda są wyodrębniane w dwóch różnych warunków.Wielkimi słowa, które nie są pierwszy wyraz zdania nigdy nie są znormalizowane i są oznakowane jako rzeczowniki własnych.
Jeżeli skonfigurowano transformacja jest rozróżniana wielkość liter, takich jak terminy Metoda and Metoda są rozpoznawane jako wariantów pojedynczy termin.Listę zwrotów wyodrębnione może zawierać zarówno Metoda or Metoda, zależnie od tego, który wyraz wystąpi jako pierwsze zestaw danych wejściowych.Jeśli Metoda jest kapitalizowana tylko w przypadku, ponieważ jest to pierwszy wyraz zdania, są wyodrębniane w postaci znormalizowanej.
Zdanie i granice programu Word
Transformacja wyodrębniania termin oddziela tekstu w zdaniach przy użyciu następujących znaków jako granice zdanie:
Znaki podziału wiersza ASCII 0x0d (powrót karetki) i 0x0a (wysuwu wiersza).Aby użyć tego znaku jako granicę zdanie, musi istnieć co najmniej dwa znaki podziału wiersza w wierszu.
Łączniki (-).Aby użyć tego znaku jako granicę zdanie, znak po lewej stronie, ani na prawo od łącznik może być literą.
Znak podkreślenia (_).Aby użyć tego znaku jako granicę zdanie, znak po lewej stronie, ani na prawo od łącznik może być literą.
Wszystkie znaki Unicode, które są mniejsze niż lub równa 0x19 lub większe niż lub równa 0x7b.
Kombinacje liczby, znaki interpunkcyjne i znaki alfabetyczne.Na przykład A23B # 99 zwraca wyrażenie A23B.
Znaki, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.
Uwaga
Akronimy, które zawierają jeden lub więcej kropek (.) nie są podzielone na kilka zdań.
Następnie transformacja wyodrębniania termin oddziela się zdanie na słowa, przy użyciu następujących granice wyraz:
Miejsce na
SHIFT +
ASCII 0x0d (powrót karetki)
ASCII 0x0a (wysuwu wiersza)
Uwaga
Jeżeli apostrof jest w programie jest zmniejszenie, takich jak Jesteśmy or Zawiera on, wyraz zostanie przerwane na znak apostrof; w przeciwnym razie litery po znak apostrof są obcięte.Na przykład Jesteśmy dzieli się na Firma Microsoft and w przypadku, and roweru firmy przycięciu do rower.
Konfigurowanie przekształcania wyodrębniania termin
zestaw właściwości za pomocą SSIS Projektant lub programowo.
Aby uzyskać więcej informacji na temat właściwości, które zestaw w Edytor transformacja wyodrębniania termin okna dialogowego kliknij jedną z następujących tematów:
Określenie wyodrębniania transformacja Edytor (karta wyodrębniania termin)
Określenie wyodrębniania transformacja Edytor (karta wykluczenia)
Edytor transformacja wyodrębniania termin (karta Zaawansowane)
Aby uzyskać więcej informacji na temat właściwości, które zestaw w Zaawansowany edytor okna dialogowego pole lub programowo, kliknij jedną z następujących tematów:
Aby uzyskać więcej informacji na temat ustawiania właściwości, zobacz Jak Ustawianie właściwości składnik przepływu danych.
|