Word konvertálása Vektor összetevővé

Cikk
06/01/2023

Ez a cikk bemutatja, hogyan végezheti el ezeket a feladatokat az Azure Machine Learning Designer Word konvertálása vektorossá összetevőjével:

Különböző Word2Vec-modellek (Word2Vec, FastText, GloVe előre betanított modell) alkalmazása a bemenetként megadott szöveg korpuszára.
Szókészlet létrehozása szóbeágyazással.

Ez az összetevő a Gensim-kódtárat használja. A Gensimről további információt a hivatalos webhelyén talál, amely oktatóanyagokat és algoritmusok magyarázatát tartalmazza.

További információ a szavak vektorokká alakításáról

A szavak vektorokká vagy szóvektorizálássá alakítása természetes nyelvi feldolgozási (NLP) folyamat. A folyamat nyelvi modelleket használ a szavak vektortérbe való leképezéséhez. A vektortér minden szót valós számok vektorával jelöl. Lehetővé teszi a hasonló jelentéssel rendelkező szavak hasonló ábrázolásait is.

Az NLP alárendelt feladataihoz, például a szövegbesoroláshoz és a hangulatelemzéshez használjon szóbeágyazást kezdeti bemenetként.

A különböző szóbeágyazási technológiák közül ebben az összetevőben három széles körben használt módszert implementáltunk. Kettő: A Word2Vec és a FastText online betanítási modellek. A másik egy előre betanított modell, kesztyű-wiki-gigaword-100.

Az online betanítási modellek betanításra kerülnek a bemeneti adatokon. Az előre betanított modelleket offline módban tanítják be egy nagyobb szöveges korpuszon (például a Wikipédián, a Google Newsban), amely általában körülbelül 100 milliárd szót tartalmaz. A szavak beágyazása ezután állandó marad a szóvektorozás során. Az előre betanított szómodellek olyan előnyöket biztosítanak, mint a rövidebb betanítási idő, a jobb kódolt szóvektorok és a jobb általános teljesítmény.

Íme néhány információ a metódusokról:

A Word2Vec az egyik legnépszerűbb módszer a szavak beágyazásának elsajátítására egy sekély neurális hálózat használatával. Az elméletet ebben a tanulmányban tárgyaljuk, amely PDF-letöltésként érhető el: A Word-reprezentációk hatékony becslése a vektortérben. Az összetevő implementációja a Word2Vec Gensim-kódtárán alapul.
A FastText elméletet ebben a tanulmányban ismertetik, amely PDF-letöltésként érhető el: A wordvektorok bővítése alszavas információkkal. Az összetevő implementációja a FastText Gensim-kódtárán alapul.
A GloVe előre betanított modellje a glove-wiki-gigaword-100. Ez egy előre betanított vektorok gyűjteménye, amely egy Wikipédia-szöveg korpuszon alapul, amely 5,6 milliárd tokent és 400 000 ki nem írt szókészletet tartalmaz. Pdf-letöltés érhető el: GloVe: Global Vectors for Word Representation.

A Word konvertálása vektorosra konfigurálása

Ehhez az összetevőhöz egy szövegoszlopot tartalmazó adatkészlet szükséges. Az előre feldolgozott szöveg jobb.

Adja hozzá a Word konvertálása vektorossá összetevőt a folyamathoz.
Az összetevő bemeneteként adjon meg egy adatkészletet, amely egy vagy több szöveges oszlopot tartalmaz.
A Cél oszlopnál csak egy olyan oszlopot válasszon, amely feldolgozandó szöveget tartalmaz.

Mivel ez az összetevő szövegből hoz létre szókincset, az oszlopok tartalma eltér, ami eltérő szókincstartalomhoz vezet. Ezért az összetevő csak egy céloszlopot fogad el.
Word2Vec-stratégia esetén válasszon a GloVe előre betanított angol modell, a Gensim Word2Vec és a Gensim FastText közül.
Ha a Word2Vec stratégiaGensim Word2Vec vagy Gensim FastText:
- A Word2Vec betanítási algoritmusa esetén válasszon a Skip_gram és a CBOW közül. A különbség az eredeti papíron (PDF) van bevezetve.
  
  Az alapértelmezett módszer a Skip_gram.
- A Szavak beágyazásának hossza mezőben adja meg a szóvektorok dimenzióját. Ez a beállítás a Gensim paraméterének felel meg size .
  
  Az alapértelmezett beágyazási méret 100.
- A Környezeti ablak mérete mezőben adja meg az előrejelzett szó és az aktuális szó közötti maximális távolságot. Ez a beállítás a Gensim paraméterének felel meg window .
  
  Az alapértelmezett ablakméret 5.
- Az Epochs (Korszakok száma) mezőben adja meg a korpuszon belüli korszakok (iterációk) számát. A Gensim paraméterének iter felel meg.
  
  Az alapértelmezett korok száma 5.
A Maximális szókincsméret beállításnál adja meg a létrehozott szókincsben lévő szavak maximális számát.

Ha több egyedi szó van, mint a maximális méret, metssza meg a ritka szavakat.

Az alapértelmezett szókincsméret 10 000.
A Minimális szószám értékhez adjon meg egy minimális szószámot. Az összetevő figyelmen kívül hagyja az összes olyan szót, amely ennél az értéknél alacsonyabb gyakorisággal rendelkezik.

Az alapértelmezett érték 5.
Küldje el a folyamatot.

Példák

Az összetevő egyetlen kimenettel rendelkezik:

Szókincs beágyazással: A létrehozott szókincset tartalmazza az egyes szavak beágyazásával együtt. Egy dimenzió egy oszlopot foglal el.

Az alábbi példa bemutatja, hogyan működik a Word konvertálása vektorosra összetevő. A Word konvertálása vektorosra az alapértelmezett beállításokkal az előre feldolgozott Wikipedia SP 500-adatkészletre.

Forrásadatkészlet

Az adatkészlet tartalmaz egy kategóriaoszlopot, valamint a Wikipédiából lekért teljes szöveget. Az alábbi táblázat néhány reprezentatív példát mutat be.

Szöveg
nasdaq 100 component s p 500 component foundation founder location city apple campus 1 végtelen hurok utca végtelen hurok cupertino california cupertino california location country egyesült államok...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industry computer software foundation br founder charles geschke br john warnock location adobe systems...
s p 500 s p 500 alkatrészipar autóipar autóipari elődje general motors corporation 1908 2009 utód...
s p 500 s p 500 component industry conglomerate company conglomerate foundation founder location city fairfield connecticut fairfield connecticut location country usa area...
br s p 500 s p 500 component foundation 1903 alapító william s harley br arthur davidson harley davidson alapítója arthur davidson br walter davidson br william a davidson hely...

Kimeneti szókincs beágyazással

Az alábbi táblázat ennek az összetevőnek a kimenetét tartalmazza, és a Wikipedia SP 500 adatkészletet adja meg bemenetként. A bal szélső oszlop a szókincset jelöli. A beágyazási vektort az ugyanabban a sorban lévő többi oszlop értékei képviselik.

Szókincs	Beágyazás halvány 0	Beágyazás halvány 1	2. halvány beágyazás	3. halvány beágyazás	4. halvány beágyazás	Beágyazás halvány 5	...	Beágyazás halvány 99
Nasdaq	-0.375865	0.609234	0.812797	-0.002236	0.319071	-0.591986	...	0.364276
-összetevő	0.081302	0.40001	0.121803	0.108181	0.043651	-0.091452	...	0.636587
s	-0.34355	-0.037092	-0.012167	0.151542	0.601019	0.084501	...	0.149419
P	-0.133407	0.073244	0.170396	0.326706	0.213463	-0.700355	...	0.530901
Alapítvány	-0.166819	0.10883	-0.07933	-0.073753	0.262137	0.045725	...	0.27487
Alapítója	-0.297408	0.493067	0.316709	-0.031651	0.455416	-0.284208	...	0.22798
location	-0.375213	0.461229	0.310698	0.213465	0.200092	0.314288	...	0.14228
city	-0.460828	0.505516	-0.074294	-0.00639	0.116545	0.494368	...	-0.2403
Apple	0.05779	0.672657	0.597267	-0.898889	0.099901	0.11833	...	0.4636
Campus	-0.281835	0.29312	0.106966	-0.031385	0.100777	-0.061452	...	0.05978
Végtelen	-0.263074	0.245753	0.07058	-0.164666	0.162857	-0.027345	...	-0.0525
Hurok	-0.391421	0.52366	0.141503	-0.105423	0.084503	-0.018424	...	-0.0521

Ebben a példában az alapértelmezett Gensim Word2Vec for Word2Vec stratégiát használtuk, a betanítási algoritmus pedig Skip-gram. A szavak beágyazásának hossza 100, ezért 100 beágyazási oszlopunk van.

Technikai megjegyzések

Ez a szakasz tippeket és válaszokat tartalmaz a gyakori kérdésekre.

Az online betanítás és az előre betanított modell közötti különbség:

Ebben a Word konvertálása vektorossá összetevőben három különböző stratégiát biztosítottunk: két online betanítási modellt és egy előre betanított modellt. Az online betanítási modellek betanítási adatokként használják a bemeneti adatkészletet, és szókincset és szóvektorokat hoznak létre a betanítás során. Az előre betanított modellt már betanította egy sokkal nagyobb szöveges korpusz, például a Wikipédia vagy a Twitter szöveg. Az előre betanított modell valójában szó-/beágyazási párok gyűjteménye.

Az előre betanított GloVe modell összegzi a bemeneti adatkészlet szókészletét, és létrehoz egy beágyazási vektort az előre betanított modellből származó minden egyes szóhoz. Online betanítás nélkül az előre betanított modell használata időt takaríthat meg a betanításhoz. Jobb teljesítménnyel rendelkezik, különösen akkor, ha a bemeneti adathalmaz mérete viszonylag kicsi.
Beágyazási méret:

Általánosságban elmondható, hogy a szavak beágyazásának hossza néhány százra van állítva. Például: 100, 200, 300. A kis beágyazási méret egy kis vektorterületet jelent, amely szóbeágyazási ütközéseket okozhat.

A szóbeágyazások hossza előre betanított modellek esetén van rögzítve. Ebben a példában a kesztyű-wiki-gigaword-100 beágyazási mérete 100.

Következő lépések

Tekintse meg az Azure Machine Learning számára elérhető összetevőket .

A tervezői összetevőkre jellemző hibák listáját a Machine Learning hibakódjai című témakörben találja.

Megosztás a következőn keresztül: