Termin ekstrakcji transformacji
transformacja ekstrakcji termin wyodrębnia warunki z tekst kolumna wprowadzania transformacja, a następnie zapisuje warunki do wynik transformacja kolumna.transformacja działa tylko w przypadku tekstu w języku angielskim i wykorzystuje własny słowniku angielskim i językowe informacje w języku angielskim.
Można użyć transformacja ekstrakcji termin wykrywanie zawartość zestaw danych.Na przykład tekst zawierający wiadomości e-mail może dostarczyć użytecznych opinii o produktach, tak, aby wyodrębnić tematy dyskusji w wiadomości, jako sposób analizowania opinii można użyć transformacja ekstrakcji termin.
transformacja termin ekstrakcji można wyodrębnić tylko rzeczowniki, tylko wyrażenia rzeczownikowe lub rzeczowniki i rzeczownik faz.Rzeczownik to pojedynczy rzeczownik; wyrażenia rzeczownikowe jest co najmniej dwóch wyrazów, których jednym jest rzeczownikiem a drugi rzeczownikiem lub przymiotnik.Na przykład, jeśli opcja tylko do rzeczowniki transformacja, wyodrębniane warunków, takich jak rowerów i Pozioma; Jeśli transformacja rzeczownik Opcja frazę, wyodrębniane są warunki, takie jak Nowe rowerów niebieskiego, kask rowerów, i ramce rowerów.
Artykuły i zaimków nie są ekstrahowane.Na przykład, transformacja ekstrakcji termin wyodrębnia termin rowerów z tekstu roweru, Moje rowerów, i ten rowerowe.
transformacja ekstrakcji termin normalizuje wyrazy tak wielkimi i noncapitalized wersje wyrazy nie są traktowane jako różnych warunków.Na przykład, w tekście Zobacz wiele rowerów w Seattle i rowery są niebieskie, rowerów i rowerów są rozpoznawane jako ten sam termin i transformacja przechowuje tylko rowerów.Rzeczowniki z.WIELKIEJ.litery i wyrazy, które nie są wymienione w słowniku wewnętrznego nie są znormalizowane.
transformacja ekstrakcji termin wynika również rzeczowniki w liczbie pojedynczej rzeczownikiem wyodrębnić.Na przykład wyodrębnia transformacja człowieka z mężczyzn, myszy z myszy, i rowerów z rowerów.transformacja używa słownika, że rzeczowniki.Gerunds są traktowane jako rzeczowniki, jeżeli są one w słowniku.
transformacja ekstrakcji termin można pracować tylko z tekst kolumna, DT_WSTR lub DT_NTEXT typu danych.Jeśli kolumna zawiera tekst, ale nie ma jednego z tych typów danych, konwersja danych transformacja można dodać kolumnę z DT_WSTR lub typ przepływ danych DT_NTEXT danych i wartości kolumn skopiowane do nowej kolumny.Jako dane wejściowe do transformacja termin ekstrakcji można następnie wyjście z transformacja konwersji danych.Aby uzyskać więcej informacji, zobacz Przekształcenie konwersji danych.
transformacja ekstrakcji termin generuje wynik dla każdego warunku, który wyodrębnia go.Wynik może być wartość TFIDF lub surowego częstotliwości, co oznacza liczbę razy znormalizowana termin ten pojawia się w danych wejściowych.W obu przypadek, wynik jest reprezentowana przez liczbę rzeczywistą, która jest większa niż 0.Na przykład wynik TFIDF mogą mieć wartość 0,5 i częstotliwość byłoby wartość jak 1.0 lub 2.0.
Opcjonalnie można odwoływać się transformacja ekstrakcji termin kolumna w tabela, która zawiera warunki wyłączenia, znaczenie warunków, że transformacja należy pominąć, gdy warunki jej wyciągi z zestaw danych.Jest to przydatne, gdy zestaw warunków już został zidentyfikowany jako potraktowane jako w szczególności przedsiębiorstwa i przemysł, zazwyczaj ponieważ termin występuje z takich wysokiej częstotliwości, że staje się wyraz ignorowany.Na przykład podczas wyodrębniania terminów z zestaw danych, który zawiera informacje dotyczące obsługi klienta o konkretnej marki samochodów, nazwy marki może zostać wyłączony, ponieważ jest zbyt często wymienionych mają istotność.Dlatego wartości na liście wykluczeń muszą być dostosowane do pracy z zestaw danych.
Podczas dodawania termin do listy wykluczeń wszystkich warunków — słowa lub wyrażenia rzeczownikowe — które zawierają określenie są również wyłączone.Na przykład, jeśli lista wykluczeń zawiera pojedynczy wyraz danych, następnie wszystkich warunków, które zawierają ten wyraz, takich jak danych, wyszukiwanie danych, integralność danych, i sprawdzania poprawności danych zostaną wykluczone.Jeśli chcesz wykluczyć tylko związki zawierające wyraz danych, należy jawnie dodać tych mieszanek terminów do listy wykluczeń.Na przykład, jeśli chcesz wyodrębnić częstości występowania danych, ale wykluczyć sprawdzania poprawności danych, należy dodać sprawdzania poprawności danych z wyłączeniem listy, a następnie upewnij się, że danych jest usuwany z listy wykluczeń.
tabela referencyjna Musi być tabelą w SQL Server 2000, SQL Server, lub bazy danych programu Access.transformacja termin ekstrakcji używa oddzielnego połączenia OLE DB, aby połączyć się z tabela referencyjna.Aby uzyskać więcej informacji, zobacz Menedżer połączeń OLE DB.
transformacja ekstrakcji termin działa w trybie w pełni buforowana.W czasie wykonywania transformacja ekstrakcji termin odczytuje wykluczenia warunki z tabela referencyjna i przechowuje w swojej pamięci prywatnej przed przetwarza on żadnych dane wejściowe przekształcenia wierszy.
Wydzielone warunki są zapisywane do tabela, one można przez innych transformacja wyszukiwania, takich jak wyszukiwanie terminu, Wyszukiwanie rozmyte i transformacja wyszukiwania.
Wyjście transformacja ekstrakcji termin obejmuje tylko dwie kolumny.Jedna kolumna zawiera wyodrębnione terminy i inne kolumny zawiera wynik.Domyślne nazwy kolumn są Term i Score.Ponieważ tekst kolumna w danych wejściowych może zawierać wiele warunków, wyjściowych transformacja ekstrakcji termin zwykle ma więcej wierszy niż dane wejściowe.
transformacja tekstu ekstrakcji używa wewnętrznych algorytmów i model statystyczny do generowania jego wyniki.Może być uruchomienie transformacja ekstrakcji termin kilka razy i przejrzeć wyniki skonfigurować transformacja do generowania typ wyników działania rozwiązania górnictwo tekst.
transformacja ekstrakcji termin ma jedno regularnych wejście, wyjście i wyjście jeden błąd.
Warunki wydobywania tekstu
Aby wyodrębnić warunki z tekstu, transformacja ekstrakcji termin wykonuje następujące zadania.
Tokenizing tekstu
Po pierwsze transformacja ekstrakcji termin identyfikuje słowa, wykonując następujące czynności:
Rozdzielanie tekstu na wyrazy przy użyciu spacji, podziały wiersza i innych terminatory word w języku angielskim.Na przykład, znaki interpunkcyjne takie jak ? and : są znaki dzielenia wyrazów.
Zachowywanie wyrazy, które są połączone przez łączniki lub podkreślenia.Na przykład wyrazy chronione przed kopiowaniem i tylko do odczytu pozostają jeden wyraz.
Prowadzenie akronimy nienaruszone, obejmujące okresy.Na przykład A.B.C firmy byłyby tokenized jako ABC i firmy.
Dzielenie wyrazów na znaki specjalne.Na przykład wyraz Data /czas jest ekstrahowany jako Data i czas, (rower) jako rowerów, C# jest traktowany jako C.Znaki specjalne są odrzucane i nie lexicalized.
UZNAJĄC podczas znaków specjalnych, takich jak znak apostrof nie należy podzielić wyrazy.Na przykład wyraz roweru firmy nie jest podzielony na dwa słowa i zwraca pojedynczy termin rowerów (rzeczownik).
Dzielenie czas wyrażeń, pieniężne wyrażeń, adresy e-mail i adresy pocztowe.Na przykład data 31 stycznia 2004 r. jest podzielony na trzy tokenów stycznia, 31, i 2004.
Znakowanie wyrazów
Po drugie transformacja ekstrakcji termin znaczniki słowa jako jeden z następujących części mowy:
Rzeczownik w liczbie pojedynczej.Na przykład rowerów i ziemniaka.
Rzeczownik w liczbie mnogiej.Na przykład rowerów i ziemniaków.Wszystkie rzeczowniki mnogiej, które nie są lemmatized podlegają wynikające.
Rzeczownik właściwego w liczbie pojedynczej.Na przykład kwietnia i Peter.
Rzeczownik właściwego w liczbie mnogiej.Na przykład Aprils i Peters.Dla rzeczownikiem z.WIELKIEJ.litery podlega wynikające musi być częścią Leksykon wewnętrznego, który jest ograniczony do standardowego angielskiego słowa.
Przymiotnik.Na przykład niebieskiego.
Przymiotnik porównawczych, który porównuje dwie rzeczy.Na przykład wyższej i wyższe.
Superlative przymiotnik identyfikujący pierwsze ma jakości powyżej lub poniżej poziom co najmniej dwa inne.Na przykład najwyższą i najwyższego.
Liczba.Na przykład 62 i 2004.
Wyrazy, które nie są jednym z tych części mowy są odrzucane.Na przykład zlecenia i zaimków są odrzucane.
Ostrzeżenie
Znakowanie części mowy jest oparty na modelu statystycznego i znakowania może nie być dokładne.
Jeżeli skonfigurowano transformacja ekstrakcji termin wyodrębnić tylko rzeczowniki, ekstrahuje się tylko wyrazy, które są oznakowane jako formy liczbie pojedynczej i mnogiej rzeczowniki i rzeczowniki z.WIELKIEJ.litery.
Jeśli termin wyodrębnićjonów transformacja jest skonfigurowany do wyodrębnić tylko rzeczownik zwroty wyrazy, które są oznakowane jako rzeczowniki, rzeczowniki z.WIELKIEJ.litery, przymiotników, liczby mogą być łączone dokonać frazę rzeczownik, ale zwrot musi zawierać co najmniej jeden wyraz, który oznakowane jako formularz liczbie pojedynczej i mnogiej rzeczownikiem lub rzeczownikiem z.WIELKIEJ.litery.Na przykład frazę rzeczownik najwyższą górę łączy word oznakowane jako przymiotnik superlative (najwyższy) i word oznakowane jako rzeczownik (górskie).
Jeśli termin wyodrębnićjonów jest skonfigurowany do wyodrębnić rzeczowniki i wyrażenia rzeczownikowe zarówno zasady rzeczowniki oraz zasady dotyczące wyrażenia rzeczownikowe zastosowanie.Na przykład wyodrębnia transformacja rowerów i piękne rowerów niebieskiego z tekstu wiele piękne rowerów niebieski.
Ostrzeżenie
Warunki wyodrębnione podlegają próg maksymalny termin długości i częstotliwości, który używa transformacja.
Mapowanie rdzeni słów
Po trzecie transformacja ekstrakcji termin wynika wyrazy do postaci słownika jak pokazano w tych przykładach przy użyciu słownika wewnętrznego transformacja termin ekstrakcji.
Usuwanie s z rzeczowniki.Na przykład rowerów staje się rowerów.
Usuwanie es z rzeczowniki.Na przykład wątki staje się wątku.
Pobieranie pojedyncza dla nieregularne rzeczowniki ze słownika.Na przykład gęsi staje się gęś.
Normalizowanie wyrazów
transformacja ekstrakcji termin normalizuje terminy, które kapitalizacji wyłącznie z powodu ich pozycji w zdaniu i użyje formularza kapitalizacji.Na przykład w oznaczeniach psów chase koty i górskie ścieżki są stromy, psów i górskie byłoby znormalizowane do pies i górskie.
Za pomocą liter normalizacji
transformacja termin ekstrakcji można skonfigurować rozważyć małych i wielkich słowa jako albo odrębne terminy lub inne odmiany tego samego terminu.
Jeżeli skonfigurowano transformacja rozpoznanie różnic przypadek, podobnie jak warunki metoda i metoda są wyodrębniane w dwóch różnych warunków.Wyrazów zapisanych wielkimi literami, które nie są pierwszy wyraz zdania nigdy nie są znormalizowane i są oznakowane jako rzeczowniki z.WIELKIEJ.litery.
Jeśli jest skonfigurowany transformacja przypadek-niewrażliwe, podobnie jak warunki metoda i metoda są rozpoznawane jako odmiany pojedynczy termin.Lista wyodrębnione warunki mogą obejmować albo metoda lub metoda, w zależności od tego, które program word wystąpi jako pierwsze w danych wejściowych zestaw danych.Jeśli metody jest kapitalizowana tylko ponieważ jest pierwszy wyraz zdania jest ekstrahowany w znormalizowanej formie.
Zdanie i granice programu Word
transformacja ekstrakcji termin oddziela tekstu do zdania jako granice zdanie przy użyciu następujących znaków:
Znaki podziału wiersza ASCII 0x0d (powrót karetki) i 0x0a (LF).Aby użyć tego znaku jako granicę zdanie, musi istnieć dwa lub więcej znaków podziału wiersza w wierszu.
Łączniki (-).Aby użyć tego znaku jako granicę zdanie, znak w lewo, ani prawo łącznik może być litery.
Podkreślenie (_).Aby użyć tego znaku jako granicę zdanie, znak w lewo, ani prawo łącznik może być litery.
Wszystkie znaki Unicode, które są mniejsze niż lub równe 0x19 lub większa niż lub równa 0x7b.
Kombinacje liczb, znaki interpunkcyjne i znaki alfabetyczne.Na przykład A23B # 99 zwraca wyrażenie A23B.
The characters, %, @, &, $, #, *, :, ;, ., , , !, ?, <, >, +, =, ^, ~, |, \, /, (, ), [, ], {, }, “, and ‘.
Ostrzeżenie
Akronimy, zawierających jeden lub więcej okresów (.) nie są podzielone na kilka zdań.
Następnie transformacja ekstrakcji termin oddziela zdanie na wyrazy przy użyciu następujących granice programu word:
Miejsca
Karta
ASCII 0x0d (powrót karetki)
ASCII 0x0a (LF)
Ostrzeżenie
Jeżeli apostrof jest w programie jest popytu, takie jak jesteśmy lub on, słowo jest na apostrof; w przeciwnym razie litery po znak apostrof zostaną obcięte.Na przykład jesteśmy jest podzielony na mamy i jest, i roweru firmy przycięta do rowerów.
Konfigurowanie transformacji ekstrakcji termin
zestaw właściwości poprzez SSIS Projektant lub programowo.
Aby uzyskać więcej informacji na temat właściwości, które zestaw w Termin ekstrakcji transformacji edytora okna dialogowego kliknij jedną z następujących tematów:
Aby uzyskać więcej informacji na temat właściwości, które zestaw w Zaawansowanego edytora okno dialogowe pole lub programowo, kliknij jeden z następujących tematów:
Aby uzyskać więcej informacji dotyczących sposobu zestaw właściwości, zobacz Jak Ustawianie właściwości składnika przepływu danych.
|