Word converteren naar vectoronderdeel

Artikel
07/27/2024

In dit artikel wordt beschreven hoe u het onderdeel Converteren van Word naar Vector in Azure Machine Learning Designer gebruikt om deze taken uit te voeren:

Verschillende Word2Vec-modellen (Word2Vec, FastText, GloVe vooraf getraind model) toepassen op het verzameling tekst dat u hebt opgegeven als invoer.
Genereer een woordenlijst met woorden insluiten.

Dit onderdeel maakt gebruik van de Gensim-bibliotheek. Zie de officiële website van Gensim, waaronder zelfstudies en een uitleg van algoritmen voor meer informatie over Gensim.

Meer informatie over het converteren van woorden naar vectoren

Het converteren van woorden naar vectoren of woordvectorisatie is een NLP-proces (Natural Language Processing). Het proces gebruikt taalmodellen om woorden in vectorruimte toe te wijzen. Een vectorruimte vertegenwoordigt elk woord door een vector van reële getallen. Ook kunnen woorden met vergelijkbare betekenissen vergelijkbare representaties hebben.

Gebruik word-insluitingen als initiële invoer voor NLP-downstreamtaken, zoals tekstclassificatie en sentimentanalyse.

Onder verschillende woord insluitingstechnologieën hebben we in dit onderdeel drie veelgebruikte methoden geïmplementeerd. Twee, Word2Vec en FastText, zijn onlinetrainingsmodellen. De andere is een vooraf getraind model, handschoen-wiki-gigaword-100.

Onlinetrainingsmodellen worden getraind op uw invoergegevens. Vooraf getrainde modellen worden offline getraind op een groter tekstlichaam (bijvoorbeeld Wikipedia, Google News) dat meestal ongeveer 100 miljard woorden bevat. Word-insluiting blijft dan constant tijdens woordvectorisatie. Vooraf getrainde woordmodellen bieden voordelen, zoals kortere trainingstijd, betere woordvectoren die zijn gecodeerd en verbeterde algehele prestaties.

Hier volgt enkele informatie over de methoden:

Word2Vec is een van de populairste technieken om woord insluitingen te leren met behulp van een ondiep neuraal netwerk. De theorie wordt in dit document besproken, beschikbaar als pdf-download: Efficiënte schatting van Word-representaties in vectorruimte. De implementatie in dit onderdeel is gebaseerd op de Gensim-bibliotheek voor Word2Vec.
De FastText-theorie wordt uitgelegd in dit document, beschikbaar als PDF-download: Verrijkende Word Vectors met Subword-informatie. De implementatie in dit onderdeel is gebaseerd op de Gensim-bibliotheek voor FastText.
Het vooraf getrainde GloVe-model is handschoen-wiki-gigaword-100. Het is een verzameling voorgetrainde vectoren op basis van een Wikipedia-tekstlichaam, dat 5,6 miljard tokens en 400.000 ongekapte woorden bevat. Er is een PDF-download beschikbaar: GloVe: Global Vectors for Word Representation.

Word naar vector converteren configureren

Voor dit onderdeel is een gegevensset vereist die een kolom met tekst bevat. Voorbewerkte tekst is beter.

Voeg het word-onderdeel Converteren naar vector toe aan uw pijplijn.
Geef als invoer voor het onderdeel een gegevensset op die een of meer tekstkolommen bevat.
Kies voor de doelkolom slechts één kolom die tekst bevat die moet worden verwerkt.

Omdat dit onderdeel een woordenlijst maakt op basis van tekst, verschilt de inhoud van kolommen, wat leidt tot verschillende inhoud van de woordenlijst. Daarom accepteert het onderdeel slechts één doelkolom.
Voor Word2Vec-strategie kiest u uit vooraf getraind Engels Model, Gensim Word2Vec en Gensim FastText.
Als Word2Vec-strategie Gensim Word2Vec of Gensim FastText is:
- Voor Word2Vec-trainingsalgoritmen kiest u uit Skip_gram en CBOW. Het verschil wordt geïntroduceerd in het oorspronkelijke document (PDF).
  
  De standaardmethode is Skip_gram.
- Geef bij Het insluiten van woorden de dimensionaliteit van de woordvectoren op. Deze instelling komt overeen met de size parameter in Gensim.
  
  De standaardgrootte voor insluiten is 100.
- Geef voor contextvenstergrootte de maximale afstand op tussen het woord dat wordt voorspeld en het huidige woord. Deze instelling komt overeen met de window parameter in Gensim.
  
  De standaardgrootte van het venster is 5.
- Geef bij Aantal tijdvakken het aantal tijdvakken (iteraties) over het corpus op. Komt overeen met de iter parameter in Gensim.
  
  Het standaardtijdnummer is 5.
Geef voor maximale woordenschatgrootte het maximum aantal woorden op in de gegenereerde woordenschat.

Als er meer unieke woorden zijn dan de maximale grootte, verwijdert u de onregelmatige woorden.

De standaard vocabulaire grootte is 10.000.
Geef voor minimumaantal woorden een minimumaantal woorden op. Het onderdeel negeert alle woorden met een frequentie die lager is dan deze waarde.

De standaardwaarde is 5.
Verzend de pijplijn.

Voorbeelden

Het onderdeel heeft één uitvoer:

Woordenlijst met insluitingen: bevat de gegenereerde woordenlijst, samen met het insluiten van elk woord. Eén dimensie neemt één kolom in beslag.

In het volgende voorbeeld ziet u hoe het onderdeel Word converteren naar vector werkt. Het maakt gebruik van Convert Word to Vector met standaardinstellingen voor de vooraf verwerkte Wikipedia SP 500-gegevensset.

Brongegevensset

De gegevensset bevat een categoriekolom, samen met de volledige tekst die is opgehaald uit Wikipedia. In de volgende tabel ziet u enkele representatieve voorbeelden.

Sms verzenden
nasdaq 100 component s p 500 component foundation oprichter locatie stad apple campus 1 oneindige lus straat oneindig lus cupertino california cupertino locatie land verenigde staten...
br nasdaq 100 nasdaq 100 component br s p 500 s p 500 component industrie computer software foundation br oprichter charles geschke br john warnock locatie adobe systemen...
s p 500 s p 500 onderdelen industrie automobielindustrie automobielindustrie auto-voorganger general motors corporation 1908 2009 opvolgende...
s p 500 s p 500 component industrie conglomerate company conglomerate foundation oprichter locatie city azure connecticut azure connecticut location country usa area...
br s p 500 s p 500 component stichting 1903 oprichter William s harley br arthur davidson harley davidson oprichter arthur davidson br walter davidson br william een davidson locatie...

Uitvoerwoordenlijst met insluitingen

De volgende tabel bevat de uitvoer van dit onderdeel, waarbij de Wikipedia SP 500-gegevensset als invoer wordt gebruikt. De meest linkse kolom geeft het vocabulaire aan. De insluitvector wordt vertegenwoordigd door waarden van resterende kolommen in dezelfde rij.

Woordenschat	Insluiten dim 0	Insluiten dim 1	Insluiten dim 2	Insluiten dim 3	Insluiten dim 4	Insluiten dim 5	...	Insluiten dim 99
Nasdaq	-0.375865	0.609234	0.812797	-0.002236	0.319071	-0.591986	...	0.364276
bestanddeel	0.081302	0.40001	0.121803	0.108181	0.043651	-0.091452	...	0.636587
s	-0.34355	-0.037092	-0.012167	0.151542	0.601019	0.084501	...	0.149419
nm	-0.133407	0.073244	0.170396	0.326706	0.213463	-0.700355	...	0.530901
stichting	-0.166819	0.10883	-0.07933	-0.073753	0.262137	0.045725	...	0.27487
stichter	-0.297408	0.493067	0.316709	-0.031651	0.455416	-0.284208	...	0.22798
locatie	-0.375213	0.461229	0.310698	0.213465	0.200092	0.314288	...	0.14228
plaats	-0.460828	0.505516	-0.074294	-0.00639	0.116545	0.494368	...	-0.2403
appel	0.05779	0.672657	0.597267	-0.898889	0.099901	0.11833	...	0.4636
campus	-0.281835	0.29312	0.106966	-0.031385	0.100777	-0.061452	...	0.05978
oneindig	-0.263074	0.245753	0.07058	-0.164666	0.162857	-0.027345	...	-0.0525
loop	-0.391421	0.52366	0.141503	-0.105423	0.084503	-0.018424	...	-0.0521

In dit voorbeeld hebben we de standaard Gensim Word2Vec-strategie voor Word2Vec gebruikt en het trainingsalgoritme is Skip-gram. De lengte van het woord Insluiten is 100, dus we hebben 100 insluitkolommen.

Technische notities

Deze sectie bevat tips en antwoorden op veelgestelde vragen.

Verschil tussen onlinetraining en vooraf getraind model:

In dit onderdeel Word converteren naar vector hebben we drie verschillende strategieën gegeven: twee onlinetrainingsmodellen en één vooraf getraind model. De onlinetrainingsmodellen gebruiken uw invoergegevensset als trainingsgegevens en genereren woorden en woordenvectoren tijdens de training. Het vooraf getrainde model is al getraind door een veel groter tekstlichaam, zoals Wikipedia of X-tekst. Het vooraf getrainde model is eigenlijk een verzameling woord-/insluitparen.

Het vooraf getrainde GloVe-model bevat een overzicht van een woordenlijst uit de invoergegevensset en genereert een insluitvector voor elk woord van het vooraf getrainde model. Zonder online training kan het gebruik van een vooraf getraind model trainingstijd besparen. Het heeft betere prestaties, met name wanneer de grootte van de invoergegevensset relatief klein is.
Grootte van insluiten:

Over het algemeen is de lengte van het insluiten van woorden ingesteld op een paar honderd. Bijvoorbeeld 100, 200, 300. Een kleine insluitingsgrootte betekent een kleine vectorruimte, wat kan leiden tot conflicten bij het insluiten van woorden.

De lengte van woord-insluitingen is vast voor vooraf getrainde modellen. In dit voorbeeld is de insluitingsgrootte van handschoen-wiki-gigaword-100 100.

Volgende stappen

Bekijk de set onderdelen die beschikbaar zijn voor Azure Machine Learning.

Zie Machine Learning-foutcodes voor een lijst met fouten die specifiek zijn voor de ontwerponderdelen.

Delen via