Konwertowanie składnika Word na wektora

Artykuł
06/01/2023

W tym artykule opisano, jak za pomocą składnika Konwertuj program Word na wektor w projektancie usługi Azure Machine Learning wykonać następujące zadania:

Zastosuj różne modele Word2Vec (Word2Vec, FastText, GloVe wstępnie wytrenowany model) w korpusie tekstu określonego jako dane wejściowe.
Wygeneruj słownictwo przy użyciu wyrazów osadzania.

Ten składnik używa biblioteki Gensim. Aby uzyskać więcej informacji na temat usługi Gensim, zobacz oficjalną witrynę internetową zawierającą samouczki i wyjaśnienie algorytmów.

Więcej informacji na temat konwertowania wyrazów na wektory

Konwertowanie wyrazów na wektory lub wektoryzacja wyrazów jest procesem przetwarzania języka naturalnego (NLP). Proces używa modeli językowych do mapowania wyrazów na przestrzeń wektorową. Przestrzeń wektorowa reprezentuje każde słowo według wektora liczb rzeczywistych. Umożliwia również wyrazom o podobnych znaczeniach podobne reprezentacje.

Użyj osadzania wyrazów jako początkowych danych wejściowych dla podrzędnych zadań równoważenia obciążenia sieciowego, takich jak klasyfikacja tekstu i analiza tonacji.

Wśród różnych technologii osadzania wyrazów w tym składniku zaimplementowaliśmy trzy powszechnie używane metody. Dwa, Word2Vec i FastText, to modele trenowania online. Drugi to wstępnie wytrenowany model, rękawiczka wiki-gigaword-100.

Modele trenowania online są trenowane na danych wejściowych. Wstępnie wytrenowane modele są trenowane w trybie offline w większym korpusie tekstu (na przykład Wikipedia, Google News), które zwykle zawierają około 100 miliardów słów. Osadzanie wyrazów pozostaje stałe podczas wektoryzacji wyrazów. Wstępnie wytrenowane modele wyrazów zapewniają korzyści, takie jak skrócony czas trenowania, lepsze wektory słów zakodowane i ulepszona ogólna wydajność.

Oto kilka informacji o metodach:

Word2Vec jest jedną z najpopularniejszych technik uczenia się osadzania słów przy użyciu płytkiej sieci neuronowej. Teoria jest omawiana w tym dokumencie, dostępnym jako plik PDF: Efektywne szacowanie reprezentacji słów w przestrzeni wektorowej. Implementacja w tym składniku jest oparta na bibliotece Gensim dla programu Word2Vec.
Teoria FastText jest objaśniona w tym dokumencie, dostępnym jako plik PDF do pobrania: Wzbogacanie wektorów programu Word za pomocą informacji o podordie. Implementacja w tym składniku jest oparta na bibliotece Gensim dla funkcji FastText.
Wstępnie wytrenowany model GloVe to glove-wiki-gigaword-100. Jest to zbiór wstępnie wytrenowanych wektorów opartych na korpusie tekstu Wikipedii, który zawiera 5,6 miliarda tokenów i 400 000 niecasowanych słów słownictwa. Pobieranie pliku PDF jest dostępne: GloVe: Global Vectors for Word Representation.

Jak skonfigurować konwertowanie programu Word na wektor

Ten składnik wymaga zestawu danych zawierającego kolumnę tekstu. Wstępnie przetworzony tekst jest lepszy.

Dodaj składnik Konwertuj program Word na wektor do potoku.
Jako dane wejściowe dla składnika podaj zestaw danych zawierający co najmniej jedną kolumnę tekstową.
W obszarze Kolumna docelowa wybierz tylko jedną kolumnę zawierającą tekst do przetworzenia.

Ponieważ ten składnik tworzy słownictwo na podstawie tekstu, zawartość kolumn różni się, co prowadzi do różnych treści słownictwa. Dlatego składnik akceptuje tylko jedną kolumnę docelową.
W przypadku strategii Word2Vec wybierz wstępnie wytrenowany angielski model GloVe, Gensim Word2Vec i Gensim FastText.
Jeśli strategia Word2Vec to Gensim Word2Vec lub Gensim FastText:
- W przypadku algorytmu trenowania Word2Vec wybierz spośród Skip_gram i CBOW. Różnica jest wprowadzana w oryginalnym dokumencie (PDF).
  
  Metoda domyślna to Skip_gram.
- W polu Długość osadzania wyrazów określ wymiarowość wektorów wyrazów. To ustawienie odpowiada parametrowi size w usłudze Gensim.
  
  Domyślny rozmiar osadzania to 100.
- W polu Rozmiar okna kontekstowego określ maksymalną odległość między przewidywanym wyrazem a bieżącym wyrazem. To ustawienie odpowiada parametrowi window w usłudze Gensim.
  
  Domyślny rozmiar okna to 5.
- W polu Liczba epok określ liczbę epok (iteracji) nad korpusem. Odpowiada parametrowi iter w usłudze Gensim.
  
  Domyślna liczba epok to 5.
W polu Maksymalny rozmiar słownictwa określ maksymalną liczbę słów w wygenerowanych słownictwach.

Jeśli istnieje więcej unikatowych słów niż maksymalny rozmiar, przycinaj rzadko używane wyrazy.

Domyślny rozmiar słownictwa to 10 000.
W obszarze Minimalna liczba wyrazów podaj minimalną liczbę słów. Składnik zignoruje wszystkie wyrazy, które mają częstotliwość niższą niż ta wartość.

Wartość domyślna to 5.
Prześlij potok.

Przykłady

Składnik ma jedno dane wyjściowe:

Słownictwo z osadzaniem: zawiera wygenerowane słownictwo wraz z osadzaniem każdego słowa. Jeden wymiar zajmuje jedną kolumnę.

W poniższym przykładzie pokazano, jak działa składnik Konwertuj program Word na wektor. Używa funkcji Konwertuj program Word na wektor z ustawieniami domyślnymi do wstępnie przetworzonego zestawu danych Wikipedia SP 500.

Zestaw danych źródłowych

Zestaw danych zawiera kolumnę kategorii wraz z pełnym tekstem pobranym z Wikipedii. W poniższej tabeli przedstawiono kilka reprezentatywnych przykładów.

Tekst
nasdaq 100 component s p 500 component foundation foundation założyciel lokalizacja miasta apple campus 1 nieskończona pętla ulica nieskończona pętla cupertino california cupertino california location country stany zjednoczone...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industry computer software foundation br założyciel charles geschke br john warnock location adobe systems...
s p 500 s p 500 przemysł motoryzacyjny przemysłu motoryzacyjnego poprzednik general motors corporation 1908 2009 następca...
s p 500 s p 500 branży składników konglomerate firmy konglomerate założyciela lokalizacji miasta fairfield connecticut fairfield connecticut lokalizacja kraju usa area...
br s p 500 s p 500 składnik foundation 1903 założyciel william s harley br arthur davidson harley davidson założyciel arthur davidson br walter davidson br walter davidson br william a davidson lokalizacja...

Słownictwo wyjściowe z osadzaniem

Poniższa tabela zawiera dane wyjściowe tego składnika, które przyjmują zestaw danych Wikipedia SP 500 jako dane wejściowe. Kolumna po lewej stronie wskazuje słownictwo. Jego wektor osadzania jest reprezentowany przez wartości pozostałych kolumn w tym samym wierszu.

Słownictwa	Osadzanie dim 0	Osadzanie dim 1	Osadzanie dim 2	Osadzanie dim 3	Osadzanie dim 4	Osadzanie dim 5	...	Osadzanie dim 99
Nasdaq	-0.375865	0.609234	0.812797	-0.002236	0.319071	-0.591986	...	0.364276
składnik	0.081302	0.40001	0.121803	0.108181	0.043651	-0.091452	...	0.636587
s	-0.34355	-0.037092	-0.012167	0.151542	0.601019	0.084501	...	0.149419
p	-0.133407	0.073244	0.170396	0.326706	0.213463	-0.700355	...	0.530901
Foundation	-0.166819	0.10883	-0.07933	-0.073753	0.262137	0.045725	...	0.27487
Założyciel	-0.297408	0.493067	0.316709	-0.031651	0.455416	-0.284208	...	0.22798
location	-0.375213	0.461229	0.310698	0.213465	0.200092	0.314288	...	0.14228
city	-0.460828	0.505516	-0.074294	-0.00639	0.116545	0.494368	...	-0.2403
Apple	0.05779	0.672657	0.597267	-0.898889	0.099901	0.11833	...	0.4636
Campus	-0.281835	0.29312	0.106966	-0.031385	0.100777	-0.061452	...	0.05978
Nieskończone	-0.263074	0.245753	0.07058	-0.164666	0.162857	-0.027345	...	-0.0525
pętla	-0.391421	0.52366	0.141503	-0.105423	0.084503	-0.018424	...	-0.0521

W tym przykładzie użyto domyślnej strategii Gensim Word2Vec dla programu Word2Vec, a algorytm trenowania to Skip-gram. Długość słowa Osadzanie wynosi 100, więc mamy 100 kolumn osadzania.

Uwagi techniczne

Ta sekcja zawiera porady i odpowiedzi na często zadawane pytania.

Różnica między trenowaniami online i wstępnie trenowanym modelem:

W tym składniku Convert Word to Vector udostępniliśmy trzy różne strategie: dwa modele trenowania online i jeden wstępnie wytrenowany model. Modele trenowania online używają wejściowego zestawu danych jako danych treningowych oraz generowania słownictwa i wektorów słów podczas trenowania. Wstępnie wytrenowany model jest już trenowany przez znacznie większy korpus tekstu, taki jak Wikipedia lub tekst twitterowy. Wstępnie wytrenowany model jest w rzeczywistości kolekcją par wyrazów/osadzania.

Wstępnie wytrenowany model GloVe podsumowuje słownictwo z wejściowego zestawu danych i generuje wektor osadzania dla każdego słowa z wstępnego modelu. Bez trenowania online użycie wstępnie wytrenowanego modelu może zaoszczędzić czas trenowania. Ma lepszą wydajność, zwłaszcza gdy rozmiar wejściowego zestawu danych jest stosunkowo mały.
Rozmiar osadzania:

Ogólnie rzecz biorąc, długość osadzania słów jest ustawiona na kilkaset. Na przykład 100, 200, 300. Mały rozmiar osadzania oznacza małą przestrzeń wektorową, która może spowodować kolizje osadzania wyrazów.

Długość osadzania wyrazów jest stała dla wstępnie wytrenowanych modeli. W tym przykładzie rozmiar osadzania rękawicy wiki-gigaword-100 wynosi 100.

Następne kroki

Zobacz zestaw składników dostępnych dla usługi Azure Machine Learning.

Aby uzyskać listę błędów specyficznych dla składników projektanta, zobacz Kody błędów usługi Machine Learning.