Latente Dirichlet-toewijzing
Belangrijk
De ondersteuning voor Azure Machine Learning-studio (klassiek) eindigt op 31 augustus 2024. U wordt aangeraden om vóór die datum over te stappen naar Azure Machine Learning.
Vanaf 1 december 2021 kunt u geen nieuwe resources voor Azure Machine Learning-studio (klassiek) meer maken. Tot en met 31 augustus 2024 kunt u de bestaande resources van Azure Machine Learning-studio (klassiek) blijven gebruiken.
- Zie informatie over het verplaatsen machine learning van ML Studio (klassiek) naar Azure Machine Learning.
- Meer informatie over Azure Machine Learning.
De documentatie van ML-studio (klassiek) wordt buiten gebruik gesteld en wordt in de toekomst mogelijk niet meer bijgewerkt.
De Vowpal Wabbit-bibliotheek gebruiken om VW LDA uit te voeren
Categorie: Text Analytics
Notitie
Van toepassing op: Machine Learning Studio (klassiek)
Vergelijkbare modules met slepen en neerzetten zijn beschikbaar in Azure Machine Learning designer.
Moduleoverzicht
In dit artikel wordt beschreven hoe u de module Latent Diraglet Allocation in Machine Learning Studio (klassiek) gebruikt om anders niet-geclassificeerde tekst te groepeert in een aantal categorieën. Latente diptlet-toewijzing (LDA) wordt vaak gebruikt in nlp (natuurlijke taalverwerking) om teksten te vinden die vergelijkbaar zijn. Een andere veelvoorkomende term is onderwerpmodelleren.
In deze module wordt een kolom met tekst gebruikt en worden deze uitvoer gegenereerd:
De brontekst, samen met een score voor elke categorie
Een functiematrix met geëxtraheerde termen en coëfficiënten voor elke categorie
Een transformatie, die u kunt opslaan en opnieuw kunt gebruiken voor nieuwe tekst die wordt gebruikt als invoer
Omdat deze module gebruikmaakt van de Vowpal Wabbit-bibliotheek, is deze zeer snel. Zie voor meer informatie over Vowpal Wabbit de GitHub opslagplaats met zelfstudies en een uitleg van het algoritme.
Meer informatie over latente dilet-toewijzing (LDA)
LDA is over het algemeen geen methode voor classificatie per se, maar maakt gebruik van een generatieve benadering. Dit betekent dat u geen bekende klasselabels hoeft op te geven en vervolgens de patronen hoeft af te lezen. In plaats daarvan genereert het algoritme een probabilistisch model dat wordt gebruikt om groepen onderwerpen te identificeren. U kunt het probabilistische model gebruiken om bestaande trainingsgevallen of nieuwe cases die u aan het model op te geven als invoer te classificeren.
Een genererend model kan de voorkeur hebben, omdat hiermee wordt voorkomen dat er sterke veronderstellingen over de relatie tussen de tekst en categorieën worden gemaakt en alleen de verdeling van woorden wordt gebruikt om wiskundige onderwerpen te modelleren.
De theorie wordt besproken in dit artikel, beschikbaar als PDF-download: Latente Dilet-toewijzing: Blei, Ng en Paper
De implementatie in deze module is gebaseerd op de Vowpal Wabbit-bibliotheek (versie 8) voor LDA.
Zie de sectie Technische notities voor meer informatie.
Latente dilatlet-toewijzing configureren
Voor deze module is een gegevensset vereist die een tekstkolom bevat, onbewerkt of voorverwerkt.
Voeg de module Latent Diraglet Allocation toe aan uw experiment.
Geef als invoer voor de module een gegevensset op die een of meer tekstkolommen bevat.
Kies voor Doelkolommen een of meer kolommen met tekst die u wilt analyseren.
U kunt meerdere kolommen kiezen, maar deze moeten van het gegevenstype tekenreeks zijn.
Over het algemeen analyseert u doorgaans één tekstkolom, omdat LDA een grote functiematrix maakt van de tekst.
Bij Aantal onderwerpen dat u wilt modelleren typt u een geheel getal tussen 1 en 1000 dat aangeeft hoeveel categorieën of onderwerpen u wilt afleiden uit de invoertekst.
Standaard worden er vijf onderwerpen gemaakt.
Voor N-grammen geeft u de maximale lengte op van N-grammen die tijdens het hashen worden gegenereerd.
De standaardwaarde is 2, wat betekent dat zowel bigrams als unigrammen worden gegenereerd.
Selecteer de optie Normaliseren om uitvoerwaarden te converteren naar waarschijnlijkheden. Daarom worden waarden in de uitvoer- en functieset als volgt getransformeerd in plaats van de getransformeerde waarden weer te geven als gehele getallen:
Waarden in de gegevensset worden weergegeven als een waarschijnlijkheid waarbij
P(topic|document)
.Waarden in de matrix van het functieonderwerp worden weergegeven als een waarschijnlijkheid waarbij
P(word|topic)
.
Selecteer de optie Alle opties weergeven en stel deze in op TRUE als u aanvullende geavanceerde parameters wilt weergeven en instellen.
Deze parameters zijn specifiek voor de Vowpal Wabbit-implementatie van LDA. Er zijn enkele goede zelfstudies over LDA in Vowpal Wabbit online, evenals de officiële Vowpal Wabbit Wiki.
Zie dit voorbeeld voor voorbeelden in versie 8 en het gebruik van VW in Azure ML.
Parameter Rho. Geef een eerdere waarschijnlijkheid op voor de sparsiteit van onderwerpdistributies. Komt overeen met de parameter van
lda_rho
VW. U gebruikt de waarde 1 als u verwacht dat de verdeling van woorden plat is; Dat wil zeggen dat van alle woorden wordt uitgegaan dat ze kunnen worden gemaakt. Als u denkt dat de meeste woorden sparse worden weergegeven, kunt u deze instellen op een veel lagere waarde.Alfaparameter. Geef een eerdere waarschijnlijkheid op voor de sparsiteit van gewichten per documentonderwerp. Komt overeen met de parameter van
lda_alpha
VW.Geschat aantal documenten. Typ een getal dat de beste schatting vertegenwoordigt van het aantal documenten (rijen) dat wordt verwerkt. Hiermee kan de module een hash-tabel van voldoende grootte toewijzen. Komt overeen met de
lda_D
parameter in Vowpal Wabbit.Grootte van de batch. Typ een getal dat aangeeft hoeveel rijen moeten worden gebruikt in elke batch tekst die naar Vowpal Wabbit wordt verzonden. Komt overeen met de
batch_sz
parameter in Vowpal Wabbit.Aanvankelijke waarde van iteratie die wordt gebruikt in het leerupdateschema. Geef de beginwaarde op voor de leersnelheid. Komt overeen met de
initial_t
parameter in Vowpal Wabbit.Energie die wordt toegepast op de iteratie tijdens updates. Geef het energieniveau aan dat wordt toegepast op het aantal iteraties tijdens online updates. Komt overeen met de
power_t
parameter in Vowpal Wabbit.Het aantal keer dat de gegevens worden door geven. Geef het aantal keren op dat het algoritme over de gegevens wordt gecyclusd. Komt overeen met de
epoch_size
parameter in Vowpal Wabbit.
Selecteer de optie Build dictionary of ngrams ofBuild dictionary of ngrams prior to LDA (Woordenlijst van ngrammen bouwen vóór LDA) als u de n-gram-lijst in een eerste keer wilt maken voordat u tekst classificeert.
Als u de eerste woordenlijst vooraf maakt, kunt u later de woordenlijst gebruiken bij het beoordelen van het model. Het is over het algemeen eenvoudiger om resultaten toe te wijsen aan tekst in plaats van numerieke indexen. Het opslaan van de woordenlijst duurt echter langer en maakt gebruik van extra opslag.
Bij Maximale grootte van ngram-woordenlijst typt u het totale aantal rijen dat kan worden gemaakt in de n-gram-woordenlijst.
Deze optie is handig voor het beheren van de grootte van de woordenlijst. Als het aantal ngrammen in de invoer echter groter is dan deze grootte, kunnen er sprake zijn van een aanrijding.
Voer het experiment uit. De LDA-module maakt gebruik van bayes-theorema om te bepalen welke onderwerpen aan afzonderlijke woorden kunnen worden gekoppeld. Woorden zijn niet uitsluitend gekoppeld aan onderwerpen of groepen; In plaats daarvan heeft elke n-gram een geleerde waarschijnlijkheid dat deze is gekoppeld aan een van de ontdekte klassen.
Resultaten
De module heeft twee uitvoer:
Getransformeerde gegevensset: bevat de invoertekst en een opgegeven aantal ontdekte categorieën, samen met de scores voor elk tekstvoorbeeld voor elke categorie.
Matrix met functieonderwerpen: De meest linkse kolom bevat de geëxtraheerde tekstfunctie en er is een kolom voor elke categorie met de score voor die functie in die categorie.
Zie voorbeeld van LDA-resultaten voor meer informatie.
LDA-transformatie
In deze module wordt ook de transformatie uitgevoerd waarmee LDA als een ITransform-interface wordt toegepast op de gegevensset.
U kunt deze transformatie opslaan en opnieuw gebruiken voor andere gegevenssets. Dit kan handig zijn als u hebt getraind op een grote groep en de coëfficiënten of categorieën opnieuw wilt gebruiken.
Een LDA-model of -resultaten verfijnen
Normaal gesproken kunt u niet één LDA-model maken dat aan alle behoeften voldoet en zelfs voor een model dat is ontworpen voor één taak, kunnen veel iteraties nodig zijn om de nauwkeurigheid te verbeteren. We raden u aan al deze methoden uit te proberen om uw model te verbeteren:
- De modelparameters wijzigen
- Visualisatie gebruiken om inzicht te krijgen in de resultaten
- Feedback krijgen van deskundigen om na te gaan of de gegenereerde onderwerpen nuttig zijn.
Kwalitatieve metingen kunnen ook nuttig zijn voor het beoordelen van de resultaten. Als u de resultaten van het onderwerpmodel wilt evalueren, kunt u het volgende overwegen:
- Nauwkeurigheid: zijn vergelijkbare items echt vergelijkbaar?
- Diversiteit: kan het model vergelijkbare items onderscheiden wanneer dit nodig is voor het bedrijfsprobleem?
- Schaalbaarheid: werkt het voor een breed scala aan tekstcategorieën of alleen voor een beperkt doeldomein?
De nauwkeurigheid van modellen op basis van LDA kan vaak worden verbeterd door verwerking van natuurlijke taal te gebruiken om tekst op te schonen, samen te vatten en te vereenvoudigen of te categoriseren. De volgende technieken, die allemaal worden ondersteund in Machine Learning, kunnen bijvoorbeeld de nauwkeurigheid van de classificatie verbeteren:
Verwijderen van woorden stoppen
Casenormalisatie
Synchronisatie of stemming
Herkenning van tekeneenheden
Zie Voorverwerking van tekst en Herkenning van benoemde entiteiten.
In Studio (klassiek) kunt u ook R- of Python-bibliotheken gebruiken voor tekstverwerking: R-script uitvoeren, Python-script uitvoeren
Voorbeelden
Zie voor voorbeelden van tekstanalyse deze experimenten in de Azure AI Gallery:
- Python-script uitvoeren: maakt gebruik van verwerking van natuurlijke taal in Python om tekst op te schonen en te transformeren.
Zie Understanding LDA Results (Informatie over LDA-resultaten) voor meer informatie en een voorbeeld op basis van de tekst van de klantbeoordeling.
Voorbeeld van LDA-resultaten
Om te laten zien hoe de module Latent Didomlet Allocation werkt, past het volgende voorbeeld LDA toe met de standaardinstellingen op de gegevensset Boekbeoordeling in Machine Learning Studio (klassiek).
Brongegevensset
De gegevensset bevat een beoordelingskolom en de volledige opmerkingstekst van gebruikers.
In deze tabel ziet u slechts enkele representatieve voorbeelden.
tekst |
---|
Dit boek heeft goede punten. Als er iets is, kunt u in woorden zetten wat u wilt van een supervisor.... |
Ik geef toe dat ik dit boek nog niet heb voltooid. Een vriend raadt het me aan omdat ik problemen heb met slapeloosheid... |
Slecht geschreven ik heb geprobeerd dit boek te lezen, maar ik vond het zo slecht en slecht geschreven dat ik er gefrustreerd over was. ... |
Sinds ik een kopie met een hond in het oren heb gehad van vrienden die het een aantal jaar geleden hebben door geven, heb ik dit boek, dat een kortstondige favoriet werd, niet meer in mijn handen kunnen krijgen |
De plot van dit boek was interessant en het had een goed boek kunnen zijn. Helaas is dat niet zo. Het belangrijkste probleem voor mij was dat ... |
Tijdens de verwerking schoont en analyseert de module Latent Didomlet Allocation de tekst op basis van de parameters die u opgeeft. Het kan bijvoorbeeld automatisch de tekst tokeniseren en leestekens verwijderen, en tegelijkertijd de tekstfuncties voor elk onderwerp vinden.
Getransformeerde LDA-gegevensset
De volgende tabel bevat de getransformeerde gegevensset , op basis van het voorbeeld boekbeoordeling. De uitvoer bevat de invoertekst en een opgegeven aantal ontdekte categorieën, samen met de scores voor elke categorie.
Filmnaam | Onderwerp 1 | Onderwerp 2 | Onderwerp 3 | Onderwerp 4 | Onderwerp 5 |
---|---|---|---|---|---|
dit boek heeft zijn goede punten | 0.001652892 | 0.001652892 | 0.001652892 | 0.001652892 | 0.9933884 |
vriend heeft dit voor mij aanbevolen | 0.00198019 | 0.001980198 | 0.9920791 | 0.001980198 | 0.001980198 |
heeft geprobeerd dit boek te lezen | 0.002469135 | 0.002469135 | 0.9901233 | 0.002469135 | 0.002469135 |
heeft het van een vriend leend | 0.9901232 | 0.002469135 | 0.002469135 | 0.002469135 | 0.002469135 |
plot van dit boek was interessant | 0.001652892 | 0.001652892 | 0.9933884 | 0.001652892 | 0.001652892 |
In dit voorbeeld hebben we de standaardwaarde 5 gebruikt voor Aantal onderwerpen dat moet worden gemodelleerd. Daarom maakt de LDA-module vijf categorieën, waarvan we kunnen aannemen dat deze ongeveer overeenkomen met het oorspronkelijke classificatiesysteem met vijf schalen.
De module wijst ook een score toe aan elk item voor elk van de vijf categorieën die onderwerpen vertegenwoordigen. Een score geeft de waarschijnlijkheid aan dat de rij moet worden toegewezen aan een bepaalde categorie.
Matrix met functieonderwerpen
De tweede uitvoer van de module is de functieonderwerpmatrix. Dit is een gegevensset in tabelvorm die de tekst bevat, , in kolom Functie, samen met een score voor elk van de categorieën, in de resterende kolommen Onderwerp 1, Onderwerp 2, ... Onderwerp N. De score vertegenwoordigt de coëfficiënt.
Functie | Onderwerp 1 | Onderwerp 2 | Onderwerp 3 | Onderwerp 4 | Onderwerp 5 |
---|---|---|---|---|---|
Interessante | 0.0240282071983144 | 0.0354678954779375 | 0.363051866576914 | 0.0276637824315893 | 0.660663576149515 |
Was | 0.0171478729532397 | 0.0823969031108669 | 0.00452966877950789 | 0.0408714510319233 | 0.025077322689733 |
from | 0.0148224220349217 | 0.0505086981492109 | 0.00434423322461094 | 0.0273389126293824 | 0.0171484355106826 |
Plot | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.086937090812819 | 1 0.0169680136708971 |
lezen | 0.0227415889348212 | 0.0408709456489325 | 0.182791041345191 | 0.0869370908128191 | 0.0169680136708971 |
Geprobeerd | 0.0269724979147211 | 0.039026263551767 | 0.00443749106785087 | 0.0628829816088284 | 0.0235340728818033 |
Me | 0.0262656945140134 | 0.0366941302751921 | 0.00656837975179138 | 0.0329214576160066 | 0.0214121851106808 |
tot | 0.0141026103224462 | 0.043359976919215 | 0.00388640531859447 | 0.0305925953440055 | 0.0228993750526364 |
it | 0.0264490547105951 | 0.0356674440311847 | 0.00541759897864314 | 0.0314539386250293 | 0.0140606468587681 |
Vriend | 0.0135971322960941 | 0.0346118171467234 | 0.00434999437350706 | 0.0666507321888536 | 0.018156863779311 |
punten | 0.0227415889348212 | 0.0396233855719081 | 0.00404663601474112 | 0.0381156510019025 | 0.0337788009496797 |
Goede | 0.651813073836783 | 0.0598646397444108 | 0.00446809691985617 | 0.0358975694646062 | 0.0138989124411206 |
Zijn | 0.0185385588647078 | 0.144253986783184 | 0.00408876416453866 | 0.0583049240441475 | 0.015442805566858 |
van | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Geleend | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
Hsa | 0.0171416780245647 | 0.0559361180418586 | 0.0100633904544953 | 0.087093930106723 | 0.0182573833869842 |
boek | 0.0143157047920681 | 0.069145948535052 | 0.184036340170983 | 0.0548757337823903 | 0.0156837976985903 |
Aanbevolen | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
dit/deze | 0.0161486848419689 | 0.0399143326399534 | 0.00550113530229642 | 0.028637149142764 | 0.0147675139039372 |
Technische opmerkingen
Deze sectie bevat implementatiedetails, tips en antwoorden op veelgestelde vragen.
Implementatiegegevens
Standaard worden de distributies van uitvoer voor getransformeerde gegevenssets en functieonderwerpmatrix genormaliseerd als waarschijnlijkheden.
De getransformeerde gegevensset wordt genormaliseerd als de voorwaardelijke waarschijnlijkheid van onderwerpen op basis van een document. In dit geval is de som van elke rij gelijk aan 1.
De functieonderwerpmatrix wordt genormaliseerd als de voorwaardelijke waarschijnlijkheid van woorden op een onderwerp. In dit geval is de som van elke kolom gelijk aan 1.
Tip
Af en toe kan de module een leeg onderwerp retourneren, dat meestal wordt veroorzaakt door de pseudo-willekeurige initialisatie van het algoritme. Als dit gebeurt, kunt u gerelateerde parameters wijzigen, zoals de maximale grootte van de N-gram-woordenlijst of het aantal bits dat moet worden gebruikt voor het hashen van functies.
LDA en onderwerpmodelleren
Latente Didomlet Allocation (LDA) wordt vaak gebruikt voor het modelleren van inhoudsonderwerpen, wat in feite betekent dat u categorieën leert van niet-geclassificeerde tekst. In op inhoud gebaseerde onderwerpmodellen is een onderwerp een verdeling over woorden.
Stel bijvoorbeeld dat u een aantal klantbeoordelingen hebt opgegeven die veel, veel producten bevat. De tekst van beoordelingen die door veel klanten gedurende een periode zijn ingediend, bevat veel termen, waarvan sommige in meerdere onderwerpen worden gebruikt.
Een onderwerp dat door het LDA-proces wordt geïdentificeerd, kan beoordelingen voor een afzonderlijk product A vertegenwoordigen of een groep productbeoordelingen vertegenwoordigen. Voor LDA is het onderwerp zelf slechts een waarschijnlijkheidsverdeling over een periode voor een reeks woorden.
Termen zijn zelden exclusief voor één product, maar kunnen verwijzen naar andere producten, of algemene termen zijn die van toepassing zijn op alles ('geweldig', 'niet waar'). Andere termen kunnen ruiswoorden zijn. Het is echter belangrijk om te begrijpen dat de LDA-methode er niet toe doet om alle woorden in het universum vast te leggen of om te begrijpen hoe woorden zijn gerelateerd, afgezien van de waarschijnlijkheid van co-exemplaren. Er kunnen alleen woorden worden gegroepeerd die in het doeldomein zijn gebruikt.
Nadat de term indexen zijn berekend, worden afzonderlijke rijen tekst vergeleken met behulp van een op afstand gebaseerde vergelijkbaarheidsmeting om te bepalen of twee tekstdelen op elkaar lijken. U kunt bijvoorbeeld zien dat het product meerdere namen heeft die sterk gecorreleerd zijn. U kunt ook merken dat sterk negatieve termen meestal aan een bepaald product zijn gekoppeld. U kunt de overeenkomstmeting gebruiken om gerelateerde termen te identificeren en aanbevelingen te maken.
Verwachte invoer
Naam | Type | Description |
---|---|---|
Gegevensset | Gegevenstabel | Invoerset |
Moduleparameters
Naam | Type | Bereik | Optioneel | Standaard | Beschrijving |
---|---|---|---|---|---|
Aantal hash-bits | Geheel getal | [1;31] | Is van toepassing wanneer het selectievakje Alle opties tonen niet is ingeschakeld | 12 | Aantal bits dat moet worden gebruikt voor functie-hashing |
Doelkolom(en) | Kolomselectie | Vereist | StringFeature | Naam of index van doelkolom | |
Aantal onderwerpen dat moet worden gemodelleerd | Geheel getal | [1;1000] | Vereist | 5 | De documentdistributie modelleren op N onderwerpen |
N-grammen | Geheel getal | [1;10] | Vereist | 2 | Volgorde van N-grammen die zijn gegenereerd tijdens hashing |
Normalize | Booleaans | Vereist | true | Uitvoer normaliseren naar waarschijnlijkheden. De getransformeerde gegevensset is P(topic|document) en de matrix van het functieonderwerp is P(word|topic). | |
Alle opties tonen | Booleaans | Waar of Onwaar | Vereist | Niet waar | Biedt aanvullende parameters die specifiek zijn voor Vowpal Wabbit Online LDA |
Parameter Rho | Float | [0.00001;1.0] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 0,01 | Parameter Rho |
Alfaparameter | Float | [0.00001;1.0] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 0,01 | Alfaparameter |
Geschat aantal documenten | Geheel getal | [1;int. MaxValue] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 1000 | Geschat aantal documenten (komt overeen met lda_D parameter) |
Grootte van de batch | Geheel getal | [1;1024] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 32 | Grootte van de batch |
Initiële waarde van iteratie die wordt gebruikt in updateschema voor leersnelheid | Geheel getal | [0;int. MaxValue] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 0 | Aanvankelijke waarde van het aantal iteraties dat wordt gebruikt in het updateschema voor leersnelheid (komt overeen met initial_t parameter) |
Energie die wordt toegepast op de iteratie tijdens updates | Float | [0.0;1.0] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 0,5 | Energie die wordt toegepast op het aantal iteraties tijdens online updates (komt overeen met power_t parameter) |
Aantal trainings iteraties | Geheel getal | [1;1024] | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | 25 | Aantal trainings iteraties |
Een woordenlijst van ngrammen bouwen | Booleaans | Waar of Onwaar | Is van toepassing wanneer het selectievakje Alle optiestonen niet is ingeschakeld | Waar | Bouwt een woordenlijst van ngrammen voordat LDA wordt gebruikt. Handig voor modelinspectie en interpretatie |
Aantal bits dat moet worden gebruikt voor functie-hashing | Geheel getal | [1;31] | Is van toepassing wanneer de optie Build dictionary of ngrams false is | 12 | Aantal bits dat moet worden gebruikt tijdens het hashen van functies |
Maximale grootte van ngram-woordenlijst | Geheel getal | [1;int. MaxValue] | Is van toepassing wanneer de optie Build dictionary of ngrams true is | 20.000 | Maximale grootte van de ngrammen-woordenlijst. Als het aantal tokens in de invoer deze grootte overschrijdt, kunnen er sprake zijn van een aanrijding |
Een woordenlijst van ngrammen bouwen vóór LDA | Booleaans | Waar of Onwaar | Is van toepassing wanneer het selectievakje Alle opties tonen is ingeschakeld | Waar | Bouwt een woordenlijst van ngrammen vóór LDA. Handig voor modelinspectie en interpretatie |
Maximum aantal ngrammen in woordenlijst | Geheel getal | [1;int. MaxValue] | Is van toepassing wanneer de optie Woordenlijst bouwen van ngrammen waar is en het selectievakje Alle opties tonen is ingeschakeld | 20.000 | Maximale grootte van de woordenlijst. Als het aantal tokens in de invoer deze grootte overschrijdt, kunnen er sprake zijn van een aanrijding |
Uitvoerwaarden
Naam | Type | Description |
---|---|---|
Getransformeerde gegevensset | Gegevenstabel | Uitvoerset |
Matrix met functieonderwerpen | Gegevenstabel | Matrix met functieonderwerpen die is geproduceerd door LDA |
LDA-transformatie | ITransform-interface | Transformatie waarmee LDA wordt toegepast op de gegevensset |
Uitzonderingen
Uitzondering | Description |
---|---|
Fout 0002 | Er treedt een uitzondering op als een of meer opgegeven kolommen met gegevenssets niet kunnen worden gevonden. |
Fout 0003 | Uitzondering treedt op als een of meer invoer null of leeg zijn. |
Fout 0004 | Uitzondering treedt op als de parameter kleiner is dan of gelijk is aan een specifieke waarde. |
Fout 0017 | Uitzondering treedt op als een of meer opgegeven kolommen het type niet ondersteund hebben door de huidige module. |
Zie Foutcodes voor een lijst met fouten die specifiek zijn Machine Learning voor Studio-modules (klassiek).
Zie Foutcodes voor een lijst Machine Learning REST API API-uitzonderingen.
Zie ook
Tekstanalyse
Functie-hashing
Herkenning van benoemde entiteiten
Vowpal Wabbit 7-4-model scoren
Vowpal Wabbit 7-4-model trainen
Vowpal Wabbit 8-model trainen