Latent Dirichlet Allocation

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Verwenden der Vowpal Wabbit-Bibliothek zum Ausführen von VW LDA

Kategorie: Textanalyse

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Latent Dirichlet Allocation in Machine Learning Studio (klassisch) verwenden, um andernfalls nicht klassifizierten Text in eine Reihe von Kategorien zu gruppieren. Latent Dirichlet Allocation (LDA) wird häufig in der Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) verwendet, um ähnliche Texte zu finden. Ein anderer häufig verwendeter Begriff ist Themenmodellierung.

Dieses Modul nimmt eine Textspalte an und generiert die folgenden Ausgaben:

Den Quelltext mit einem Score für jede Kategorie
Eine Featurematrix mit extrahierten Begriffen und Koeffizienten für jede Kategorie
Eine Transformation, die Sie speichern und erneut auf neuen Eingabetext anwenden können

Da dieses Modul die Vowpal Wabbit-Bibliothek verwendet, ist es sehr schnell. Weitere Informationen zu Vowpal Wabbit finden Sie im GitHub-Repository, das Tutorials und eine Erläuterung des Algorithmus enthält.

Weitere Informationen zur Latent Dirichlet Allocation (LDA)

Im Allgemeinen ist LDA keine Methode für die Klassifizierung per se, sondern verwendet einen generativen Ansatz. Dies bedeutet, dass Sie keine bekannten Klassenbezeichnungen bereitstellen und dann die Muster ableiten müssen. Stattdessen generiert der Algorithmus ein probabilistisches Modell, das zum Identifizieren von Themengruppen verwendet wird. Sie können das probabilistische Modell verwenden, um entweder vorhandene Trainingsfälle oder neue Fälle zu klassifizieren, die Sie dem Modell als Eingabe bereitstellen.

Ein generatives Modell kann vorzuziehen sein, da es keine starken Annahmen über die Beziehung zwischen Text und Kategorien macht und nur die Verteilung von Wörtern auf mathematische Modellthemen verwendet.

Die Theorie wird in diesem Dokument erläutert, das als PDF-Download zur Verfügung steht: Latent Dirichlet Allocation: Blei, Ng undFs.
Die Implementierung in diesem Modul basiert auf der Vowpal Wabbit-Bibliothek (Version 8) für LDA.

Weitere Informationen finden Sie im Abschnitt mit den technischen Hinweisen.

Konfigurieren der Latent Dirichlet Allocation

Dieses Modul erfordert ein Dataset mit einer Textspalte, die unformatiert oder vorverarbeitet sein kann.

Fügen Sie Ihrem Experiment das Modul Latent Dirichlet Allocation hinzu.
Stellen Sie als Eingabe für das Modul ein Dataset mit einer oder mehreren Textspalten bereit.
Wählen Sie für Zielspalten mindestens eine Spalte aus, die zu analysierenden Text enthält.

Sie können mehrere Spalten auswählen, aber sie müssen vom Datentyp string sein.

Da LDA eine große Featurematrix aus dem Text erstellt, analysieren Sie in der Regel eine einzelne Textspalte.
Geben Sie für Number of topics to model (Anzahl der zu modellierenden Themen) eine ganze Zahl zwischen 1 und 1000 ein, die angibt, wie viele Kategorien oder Themen aus dem Eingabetext abgeleitet werden sollen.

Standardmäßig werden fünf Themen erstellt.
Geben Sie für N-grams die maximale Länge von N-Grammen an, die während der Hasherstellung generiert werden sollen.

Der Standardwert beträgt 2, sodass sowohl Bigramme als auch Unigramme generiert werden.
Wählen Sie die Option Normalisieren aus, um Ausgabewerte in Wahrscheinlichkeiten zu konvertieren. Daher werden die Werte im Ausgabe- und Featuredataset wie folgt transformiert, anstatt die transformierten Werte als ganze Zahlen darzustellen:
- Werte im Dataset werden als Wahrscheinlichkeit dargestellt durch P(topic|document).
- Werte in der Feature-Themen-Matrix werden als Wahrscheinlichkeit dargestellt durch P(word|topic).
Wählen Sie die Option Alle Optionen anzeigen aus, und legen Sie sie dann auf TRUE fest, wenn Sie weitere erweiterte Parameter anzeigen und festlegen möchten.

Diese Parameter sind spezifisch für die Vowpal Wabbit-Implementierung von LDA. Es gibt einige gute Tutorials zu LDA in Vowpal Wabbit online sowie im offiziellen Vowpal Wabbit Wiki.

Beispiele in Version 8 und die Verwendung von VW in Azure ML finden Sie in diesem Beispiel.
- Parameter „Rho“ . Geben Sie eine vorherige Wahrscheinlichkeit für eine geringe Datendichte von Themenverteilungen an. Entspricht dem VW-Parameter lda_rho . Sie würden den Wert 1 verwenden, wenn Sie erwarten, dass die Verteilung der Wörter flach ist. d.h., alle Wörter werden als ausstattbar angenommen. Wenn Sie der Meinung sind, dass die meisten Wörter spärlich erscheinen, können Sie sie auf einen viel niedrigeren Wert festlegen.
- Parameter „Alpha“ . Geben Sie eine vorherige Wahrscheinlichkeit für eine geringe Datendichte von Themengewichtungen pro Dokument an. Entspricht dem VW-Parameter lda_alpha .
- Geschätzte Anzahl von Dokumenten. Geben Sie eine Zahl ein, die Ihre beste Schätzung der Anzahl der zu verarbeitenden Dokumente (Zeilen) darstellt. Dadurch kann das Modul eine Hashtabelle mit ausreichender Größe zuordnen. Entspricht dem lda_D -Parameter in Vowpal Wabbit.
- Größe des Batches. Geben Sie eine Zahl ein, die angibt, wie viele Zeilen in jeden Textbatch eingeschlossen werden sollen, der an Vowpal Wabbit gesendet wird. Entspricht dem batch_sz -Parameter in Vowpal Wabbit.
- Anfänglicher Wert der Iterationen im Aktualisierungszeitplan für das Lernen. Geben Sie den Startwert für die Lernrate an. Entspricht dem initial_t -Parameter in Vowpal Wabbit.
- Während der Aktualisierung auf die Iteration aufgewandte Leistung. Geben Sie die Leistungsebene an, die bei Onlineupdates auf die Iterationsanzahl angewendet wird. Entspricht dem power_t -Parameter in Vowpal Wabbit.
- Anzahl der Durchgänge über die Daten. Geben Sie an, wie oft der Algorithmus die Daten durchlauft. Entspricht dem epoch_size -Parameter in Vowpal Wabbit.
Wählen Sie die Option Wörterbuch von N-Grammen erstellen oder Wörterbuch von nGrams vor LDA erstellen aus, wenn Sie die N-Gramm-Liste in einem ersten Durchlauf erstellen möchten, bevor Sie Text klassifizieren.

Wenn Sie das erste Wörterbuch vorab erstellen, können Sie es später beim Überprüfen des Modells verwenden. Zuordnungen von Ergebnissen zu Text anstelle von numerischen Indizes sind in der Regel einfacher zu interpretieren. Das Speichern des Wörterbuchs dauert jedoch länger und verbraucht zusätzlichen Speicher.
Geben Sie unter Maximale Größe des N-Gramm-Wörterbuchs die Gesamtzahl der Zeilen ein, die im N-Gramm-Wörterbuch erstellt werden können.

Diese Option ist nützlich, um die Größe des Wörterbuchs zu steuern. Wenn jedoch die Anzahl der N-Gramme in der Eingabe diese Größe überschreitet, können Konflikte auftreten.
Führen Sie das Experiment aus. Das LDA-Modul nutzt das Bayes-Theorem, um zu ermitteln, welche Themen mit einzelnen Wörtern verknüpft sein können. Wörter sind nicht ausschließlich Themen oder Gruppen zugeordnet. stattdessen verfügt jedes N-Gramm über eine erlernte Wahrscheinlichkeit, einer der ermittelten Klassen zugeordnet zu werden.

Ergebnisse

Das Modul liefert zwei Ausgaben:

Transformiertes Dataset: Enthält den Eingabetext und eine angegebene Anzahl ermittelter Kategorien sowie die Bewertungen für jedes Textbeispiel für jede Kategorie.
Featurethemamatrix: Die spalte ganz links enthält das Extrahierte Textfeature, und es gibt eine Spalte für jede Kategorie, die die Bewertung für dieses Feature in dieser Kategorie enthält.

Weitere Informationen finden Sie unter Beispiel für LDA-Ergebnisse.

LDA-Transformation

Dieses Modul gibt auch die Transformation aus, die LDA auf das Dataset anwendet, als ITransform-Schnittstelle.

Sie können diese Transformation speichern und für andere Datasets wiederverwenden. Dies kann nützlich sein, wenn Sie mit einem großen Korpus trainiert haben und die Koeffizienten oder Kategorien wiederverwenden möchten.

Optimieren von LDA-Modellen oder -Ergebnissen

In der Regel können Sie kein einzelnes LDA-Modell erstellen, das alle Anforderungen erfüllt, und selbst ein Modell, das für eine Aufgabe entwickelt wurde, erfordert möglicherweise viele Iterationen, um die Genauigkeit zu verbessern. Es wird empfohlen, alle diese Methoden zur Verbesserung des Modells auszuprobieren:

Ändern der Modellparameter
Analysieren der Ergebnisse mithilfe von Visualisierung
Erhalten des Feedbacks von Experten, um festzustellen, ob die generierten Themen nützlich sind.

Qualitative Maßnahmen können für eine Auswertung der Ergebnisse ebenfalls hilfreich sein. Zum Auswerten der Ergebnisse der Themenmodellierung sollten Sie Folgendes berücksichtigen:

Genauigkeit: Sind ähnliche Elemente wirklich ähnlich?
Diversität: Kann das Modell zwischen ähnlichen Elementen unterscheiden, wenn dies für das Geschäftsproblem erforderlich ist?
Skalierbarkeit: Funktioniert sie für eine Vielzahl von Textkategorien oder nur für eine schmale Zieldomäne?

Die Genauigkeit von Modellen, die auf LDA basieren, kann häufig verbessert werden, indem die Verarbeitung natürlicher Sprache verwendet wird, um Text zu bereinigen, zusammenzufassen und zu vereinfachen oder zu kategorisieren. Beispielsweise können die folgenden Techniken, die alle in Machine Learning unterstützt werden, die Klassifizierungsgenauigkeit verbessern:

Stoppwortentfernung
Kasusnormalisierung
Lemmatisierung oder Wortstammerkennung
Erkennung benannter Entitäten

Weitere Informationen finden Sie unter Vorverarbeiten von Text und Erkennung benannter Entitäten.

In Studio (klassisch) können Sie auch R- oder Python-Bibliotheken für die Textverarbeitung verwenden: R-Skript ausführen, Python-Skript ausführen

Beispiele

Beispiele für die Textanalyse finden Sie in den folgenden Experimenten im Azure KI-Katalog:

Python-Skript ausführen: Verwendet die Verarbeitung natürlicher Sprache in Python, um Text zu bereinigen und zu transformieren.

Details und ein Beispiel, das auf dem Text der Kundenüberprüfung basiert, finden Sie unter Grundlegendes zu LDA-Ergebnissen.

Beispiel für LDA-Ergebnisse

Zur Veranschaulichung der Funktionsweise des Moduls Latent Dirichlet Allocation wendet das folgende Beispiel LDA mit den Standardeinstellungen auf das in Machine Learning Studio (klassisch) bereitgestellte Book Review-Dataset an.

Quelldataset

Das Dataset enthält eine Bewertungsspalte sowie den vollständigen Kommentartext, der von Benutzern bereitgestellt wird.

In dieser Tabelle werden nur einige repräsentative Beispiele angezeigt.

text
Dieses Buch hat seine guten Punkte. Wenn überhaupt, hilft es Ihnen, das, was Sie von einem Vorgesetzten wünschen, in Worte zu fassen.
Ich habe dieses Buch noch nicht abgeschlossen. Ein Freund hat es mir empfohlen, da ich Probleme mit der Störung hatte...
Schlecht geschrieben Ich habe versucht, dieses Buch zu lesen, aber es so gut und schlecht geschrieben gefunden, dass ich es frustriert ablegte. ...
Da ich vor einigen Jahren eine Kopie mit Hundeohren von Freunden erhalten habe, die es vor einigen Jahren übergeben haben, konnte ich dieses Buch nicht mehr in die Hand nehmen, das zu einem kurzlebigen Favoriten geworden ist.
Der Plot dieses Buchs war interessant, und es hätte ein gutes Buch sein können. Leider nicht. Das Hauptproblem für mich war, dass ...

Während der Verarbeitung bereinigt und analysiert das Modul Latent Dirichlet Allocation den Text basierend auf den von Ihnen angegebenen Parametern. So kann beispielsweise automatisch ein Token für den Text erstellt und Interpunktion entfernt und gleichzeitig die Textfeatures für jedes Thema gefunden werden.

Transformiertes LDA-Dataset

Die folgende Tabelle enthält das transformierte Dataset basierend auf dem Buchüberprüfungsbeispiel. Die Ausgabe enthält den Eingabetext und eine angegebene Anzahl ermittelter Kategorien sowie die Bewertungen für jede Kategorie.

Filmname	Thema 1	Thema 2	Thema 3	Thema 4	Thema 5
dieses Buch hat seine guten Punkte	0.001652892	0.001652892	0.001652892	0.001652892	0.9933884
Friend hat es mir empfohlen.	0.00198019	0.001980198	0.9920791	0.001980198	0.001980198
lesen Sie dieses Buch.	0.002469135	0.002469135	0.9901233	0.002469135	0.002469135
von Friend geliehen	0.9901232	0.002469135	0.002469135	0.002469135	0.002469135
Plot dieses Buchs war interessant	0.001652892	0.001652892	0.9933884	0.001652892	0.001652892

In diesem Beispiel haben wir den Standardwert 5 für Number of topics to model (Anzahl der zu modellierende Themen) verwendet. Daher erstellt das LDA-Modul fünf Kategorien, von denen wir annehmen können, dass sie ungefähr dem ursprünglichen Bewertungssystem mit fünf Skalierungen entsprechen.

Das Modul weist jedem Eintrag außerdem eine Bewertung für jede der fünf Kategorien zu, die Themen darstellen. Ein Ergebnis gibt die Wahrscheinlichkeit an, dass die Zeile einer bestimmten Kategorie zugewiesen werden soll.

Featurethemamatrix

Die zweite Ausgabe des Moduls ist die Featurethemamatrix. Dies ist ein tabellarisches Dataset, das den featurisierten Text in der Spalte Feature sowie eine Bewertung für jede der Kategorien in den verbleibenden Spalten Topic 1, Topic 2, ... enthält. Thema N. Die Bewertung stellt den Koeffizienten dar.

Feature	Thema 1	Thema 2	Thema 3	Thema 4	Thema 5
interessant	0.0240282071983144	0.0354678954779375	0.363051866576914	0.0276637824315893	0.660663576149515
was (war)	0.0171478729532397	0.0823969031108669	0.00452966877950789	0.0408714510319233	0.025077322689733
from	0.0148224220349217	0.0505086981492109	0.00434423322461094	0.0273389126293824	0.0171484355106826
plot	0.0227415889348212	0.0408709456489325	0.182791041345191	0.086937090812819	1 0.0169680136708971
Lesen	0.0227415889348212	0.0408709456489325	0.182791041345191	0.0869370908128191	0.0169680136708971
Versucht	0.0269724979147211	0.039026263551767	0.00443749106785087	0.0628829816088284	0.0235340728818033
ich	0.0262656945140134	0.0366941302751921	0.00656837975179138	0.0329214576160066	0.0214121851106808
zu	0.0141026103224462	0.043359976919215	0.00388640531859447	0.0305925953440055	0.0228993750526364
it	0.0264490547105951	0.0356674440311847	0.00541759897864314	0.0314539386250293	0.0140606468587681
friend	0.0135971322960941	0.0346118171467234	0.00434999437350706	0.0666507321888536	0.018156863779311
Punkte	0.0227415889348212	0.0396233855719081	0.00404663601474112	0.0381156510019025	0.0337788009496797
gut	0.651813073836783	0.0598646397444108	0.00446809691985617	0.0358975694646062	0.0138989124411206
.its	0.0185385588647078	0.144253986783184	0.00408876416453866	0.0583049240441475	0.015442805566858
of	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
Ausgeliehen	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
has	0.0171416780245647	0.0559361180418586	0.0100633904544953	0.087093930106723	0.0182573833869842
book (Buch)	0.0143157047920681	0.069145948535052	0.184036340170983	0.0548757337823903	0.0156837976985903
empfohlen	0.0161486848419689	0.0399143326399534	0.00550113530229642	0.028637149142764	0.0147675139039372
this	0.0161486848419689	0.0399143326399534	0.00550113530229642	0.028637149142764	0.0147675139039372

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Details zur Implementierung

Standardmäßig werden die Verteilungen der Ausgaben für transformierte Datasets und Featurethemamatrixen als Wahrscheinlichkeiten normalisiert.

Das transformierte Dataset wird als bedingte Wahrscheinlichkeit von Themen in einem Dokument normalisiert. In diesem Fall ist die Summe der einzelnen Zeilen gleich 1.
Die Feature-Themen-Matrix wird als bedingte Wahrscheinlichkeit von Wörtern in einem Thema normalisiert. In diesem Fall ist die Summe der einzelnen Spalten gleich 1.

Tipp

Gelegentlich gibt das Modul möglicherweise ein leeres Thema zurück, das am häufigsten durch die Pseudo-Random-Initialisierung des Algorithmus verursacht wird. In diesem Fall können Sie versuchen, verwandte Parameter zu ändern, z. B. die maximale Größe des N-Gramm-Wörterbuchs oder die Anzahl der Bits, die für feature hashing verwendet werden.

LDA und Themenmodellierung

Latent Dirichlet Allocation (LDA) wird häufig für die inhaltsbasierte Themenmodellierung verwendet. Dies bedeutet im Grunde genommen das Erlernen von Kategorien aus nicht klassifiziertem Text. Bei der inhaltsbasierten Themenmodellierung ist ein Thema eine Verteilung von Wörtern.

Angenommen, Sie haben einen Korpus von Kundenbewertungen bereitgestellt, der viele, viele Produkte enthält. Der Text der Überprüfungen, die von vielen Kunden im Laufe der Zeit übermittelt wurden, enthält viele Begriffe, von denen einige in mehreren Themen verwendet werden.

Ein Thema , das durch den LDA-Prozess identifiziert wird, kann Überprüfungen für ein einzelnes Produkt A oder eine Gruppe von Produktbewertungen darstellen. Für LDA ist das Thema lediglich eine Wahrscheinlichkeitsverteilung über die Zeit für eine Gruppe von Wörtern.

Begriffe sind nur selten exklusiv für ein Produkt, können aber auf andere Produkte verweisen oder allgemeine Begriffe sein, die für alles gelten ("great", "awful"). Andere Begriffe können Füllwörter sein. Es ist jedoch wichtig zu verstehen, dass die LDA-Methode nicht dazu verwendet, alle Wörter im Weltall zu erfassen oder zu verstehen, wie Wörter zusammengeglichen werden, abgesehen von wahrscheinlichen Gemeinsamkeiten. Sie kann nur Wörter gruppen, die in der Zieldomäne verwendet wurden.

Nachdem die Begriffsindizes berechnet wurden, werden einzelne Textzeilen mithilfe eines entfernungsbasierten Ähnlichkeitsmaßes verglichen, um zu bestimmen, ob zwei Textteile einander ähneln. Beispielsweise können Sie feststellen, dass das Produkt mehrere Namen aufweist, die stark korreliert sind. Möglicherweise werden Sie auch feststellen, dass stark negative Begriffe normalerweise einem bestimmten Produkt zugeordnet sind. Sie können das Ähnlichkeitsmeasure sowohl zum Identifizieren verwandter Begriffe als auch zum Erstellen von Empfehlungen verwenden.

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Eingabedataset

Modulparameter

Name	Typ	Range	Optional	Standard	Beschreibung
Number of hash bits	Integer	[1;31]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen nicht aktiviert ist	12	Anzahl der Bits, die für Featurehashing verwendet werden
Target column(s)	Spaltenauswahl		Erforderlich	StringFeature	Name oder Index der Zielspalte
Number of topics to model	Integer	[1;1000]	Erforderlich	5	Modellieren der Dokumentverteilung mit N Themen
N-grams	Integer	[1;10]	Erforderlich	2	Reihenfolge der beim Hashing generierten N-Gramme
Normalize	Boolean		Erforderlich	true	Normalisieren der Ausgabe in Wahrscheinlichkeiten. Das transformierte Dataset ist P(Thema\|Dokument), und die Feature-Themen-Matrix ist P(Wort\|Thema).
Show all options	Boolean	„true“ oder „false“	Erforderlich	False	Stellt zusätzliche Parameter speziell für Vowpal Wabbit Online-LDA vor
Rho parameter	Float	[0.00001;1.0]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	0.01	Rho parameter
Alpha parameter	Float	[0.00001;1.0]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	0.01	Alpha parameter
Estimated number of documents	Integer	[1;int.MaxValue]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	1000	Geschätzte Anzahl von Dokumenten (entspricht lda_D Parameter)
Größe des Batches	Integer	[1;1024]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	32	Größe des Batches
Initial value of iteration used in learning rate update schedule	Integer	[0;int.MaxValue]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	0	Anfangswert der Iterationsanzahl, der im Aktualisierungszeitplan der Lernrate verwendet wird (entspricht initial_t Parameter)
Power applied to the iteration during updates	Float	[0.0;1.0]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	0.5	Bei Onlineupdates auf die Iterationsanzahl angewendete Leistung (entspricht power_t Parameter)
Anzahl der Trainingsiterationen	Integer	[1;1024]	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	25	Anzahl der Trainingsiterationen
Build dictionary of ngrams	Boolean	„true“ oder „false“	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigennicht aktiviert ist	True	Erstellt vor dem Berechnen der LDA ein Wörterbuch von N-Grammen. Nützlich für die Modelluntersuchung und -interpretation
Anzahl von Bits, die für Featurehashing verwendet werden sollen	Integer	[1;31]	Gilt, wenn die Option Build dictionary of ngrams auf False festgelegt ist.	12	Anzahl von Bits, die während des Featurehashings verwendet werden sollen
Maximum size of ngram dictionary	Integer	[1;int.MaxValue]	Gilt, wenn die Option Build dictionary of ngrams den Wert True aufweist.	20000	Maximale Größe des N-Gramm-Wörterbuchs. Wenn die Anzahl der Token in der Eingabe diese Größe überschreitet, können Konflikte auftreten.
Build dictionary of ngrams prior to LDA	Boolean	„true“ oder „false“	Gilt, wenn das Kontrollkästchen Alle Optionen anzeigen aktiviert ist	True	Erstellt vor der LDA ein Wörterbuch von N-Grammen. Nützlich für die Modelluntersuchung und -interpretation
Maximum number of ngrams in dictionary	Integer	[1;int.MaxValue]	Gilt, wenn die Option Build dictionary of ngrams auf True (True) und das Kontrollkästchen Alle Optionen anzeigen aktiviert ist.	20000	Maximale Größe des Wörterbuchs. Wenn die Anzahl der Token in der Eingabe diese Größe überschreitet, können Konflikte auftreten.

Ausgaben

Name	Type	Beschreibung
Transformiertes Dataset	Datentabelle	Ausgabedataset
Featurethemamatrix	Datentabelle	Von LDA erstellte Featurethemamatrix
LDA-Transformation	ITransform-Schnittstelle	Transformation, die LDA auf das Dataset anwendet

Ausnahmen

Ausnahme	Beschreibung
Fehler 0002	Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten.
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0004	Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist.
Fehler 0017	Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Textanalyse
Feature Hashing
Erkennung benannter Entitäten
Bewerten des Vowpal Wabbit 7–4-Modells
Trainieren des Vowpal Wabbit 7-4-Modells
Trainieren des Vowpal Wabbit 8-Modells