Extrahieren von N-Gramm-Funktionen aus Text

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Erstellt N-Gramm-Wörterbuchfeatures und führt die Featureauswahl für diese aus.

Kategorie: Textanalyse

Hinweis

Gilt für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird erläutert, wie Sie das Modul Extract N-Gram Features from Text (Extrahieren von N-Gramm-Features aus Text) in Machine Learning Studio (klassisch) verwenden, um Text mit Merkmalen zu bestücken und nur die wichtigsten Informationen aus langen Textzeichenfolgen zu extrahieren.

Das Modul erstellt ein Wörterbuch mit N-Grammen aus einer Spalte mit freiem Text, die Sie als Eingabe angeben. Das Modul wendet verschiedene Informationsmetriken auf die N-Gramm-Liste an, um die Datendimensionalität zu reduzieren und die N-Gramme zu identifizieren, die den meisten Informationswert haben.

Wenn Sie bereits ein Vokabular von N-Grammen erstellt haben, können Sie seine Statistiken aktualisieren oder mit einem Gewichtungsalgorithmus Ihrer Wahl in neue Begriffe zusammenführen.

Da dieses Modul die Featurisierung von N-Grammen unterstützt, kann es auch bei der Bewertung verwendet werden.

Konfigurieren von "Extract N-Gram Features from Text" (Extrahieren von N-Gramm-Features aus Text)

Dieses Modul unterstützt die folgenden Szenarien zum Erstellen, Aktualisieren oder Anwenden eines N-Gramm-Wörterbuchs:

Sie entwickeln ein neues Modell mit einer Spalte mit Freitextspalte und möchten Textfeatures ausschließlich basierend auf den Eingabedaten extrahieren. Weitere Informationen finden Sie in den Anweisungen.
Sie verfügen über eine Reihe von Textfeatures und möchten die Gewichtungen aktualisieren, indem Sie neue Texteingaben verarbeiten. Weitere Informationen finden Sie in den Anweisungen.
Sie generieren Bewertungen aus einem Vorhersagemodell und müssen Texteingaben mit einem N-Gramm-Wörterbuch als Teil des Bewertungsprozesses generieren und verwenden. Weitere Informationen finden Sie in den Anweisungen.

Sie können das Beispielexperiment als Referenz verwenden.

Erstellen eines neuen N-Gramm-Wörterbuchs aus einer Textspalte

Fügen Sie ihrem Experiment das Modul Extract N-Gram Features from Text (N-Gramm-Features aus Text extrahieren) hinzu, und verbinden Sie das Dataset mit dem Text, den Sie verarbeiten möchten.
Wählen Sie für Textspalte eine Spalte vom Typ Zeichenfolge aus , die den text enthält, den Sie extrahieren möchten.

Standardmäßig wählt das Modul alle Zeichenfolgenspalten aus. Da das Ergebnis jedoch ausführlich ist, müssen Sie möglicherweise eine einzelne Spalte gleichzeitig verarbeiten.
Wählen Sie für Vokabularmodus die Option Erstellen aus, um anzugeben, dass Sie eine neue Liste von N-Gramm-Features erstellen.

Informationen zum Aktualisieren eines vorhandenen N-Gramm-Features finden Sie in diesem Abschnitt.
Geben Sie für N-Gramm-Größe eine Zahl ein, die die maximale Größe der zu extrahierenden und zu speichernden N-Gramme angibt.

Wenn Sie beispielsweise eingeben 3, werden Unigramme, Bigrams und Trigramme erstellt.
Geben Sie für K-Skip size (K-Skip-Größe) die maximale Anzahl von Zeichen ein, die sich beim Identifizieren von Varianten von N-Grammen unterscheiden können. Wenn der Wert von k auf 0 festgelegt ist, können n-Gramme nur aus einer eindeutigen, zusammenhängenden Zeichenfolge erstellt werden.

Angenommen, Ihr Wörterbuch enthält das Unigramm "Computer". Ein k-Wert von 0 bedeutet, dass "Computer" das einzige gültige Unigramm ist. Wenn Sie den Wert von k auf 1 erhöhen, können Sie ein intervening-Zeichen überspringen, wodurch Sie ähnlichere Sequenzen finden können. Ein Skipgram mit einem k-Wert von 1 würde sich um ein Zeichen vom 0-k-Unigramm unterscheiden. Daher würden die Skip-Gramme "Conputer" und "compuuter" beide als Teil desselben Wörterbucheintrags wie "computer" betrachtet. Das Festlegen des k-Werts auf 2 würde mit noch unterschiedlicheren Wörtern übereinstimmen.

Weitere Informationen zur Verwendung von Skip-Grammen in der Textanalyse finden Sie in diesem Artikel: Candidate Generation and Feature Engineering for Supervised Lexical Normalization (Kandidatengenerierung und Featureentwicklung für die überwachte lexikalische Normalisierung).
Die Option Weighting-Funktion ist nur erforderlich, wenn Sie Vokabulare zusammenführen oder aktualisieren. Sie gibt an, wie Begriffe in den beiden Vokabularen und deren Bewertungen untereinander gewichtet werden sollen.
Geben Sie für Minimale Wortlänge die minimale Wortlänge von Zeichenfolgen ein, die analysiert werden können.

Angenommen, die Minimale Wortlänge wurde auf 3 (Standardwert) festgelegt, und Sie hatten eine Eingabe, die ein einzelnes Wort hatte, und eine andere, die einen kurzen Text wie "nice place" aufwies. Beide Zeilen würden ignoriert.
Geben Sie unter Maximale Wortlänge die maximale Anzahl von Buchstaben ein, die in einem einzelnen Wort in einem N-Gramm verwendet werden können.

Standardmäßig sind bis zu 25 Zeichen pro Wort oder Token zulässig. Wörter, die länger als die entfernt werden, unter der Annahme, dass sie möglicherweise Sequenzen beliebiger Zeichen und nicht tatsächlicher lexikalischer Elemente sind.
Geben Sie für Minimale absolute N-Gramm-Dokumenthäufigkeit eine Zahl ein, die die mindesten Vorkommen angibt, die für ein einzelnes Wort oder Token erforderlich sind, das n-Gramm-Wörterbuch enthalten soll.

Wenn Sie beispielsweise den Standardwert 5 verwenden, muss jedes N-Gramm oder Skip-Gram mindestens fünfmal im Korpus angezeigt werden, um in das N-Gramm-Wörterbuch aufgenommen zu werden.
Geben Sie für Maximales N-Gramm-Dokumentverhältnis eine Zahl ein, die dieses Verhältnis darstellt: die Anzahl der Zeilen, die ein bestimmtes N-Gramm enthalten, über der Anzahl der Zeilen im Gesamtkorpus.

Ein Verhältnis von 1 gibt beispielsweise an, dass das N-Gramm dem N-Gramm-Wörterbuch selbst dann hinzugefügt werden kann, wenn in jeder Zeile ein bestimmtes N-Gramm vorhanden ist. In der Regel wird ein Wort, das in jeder Zeile vorkommt, als Füllwort betrachtet und entfernt. Um fachgebietsabhängige Füllwörter auszufiltern, verringern Sie dieses Verhältnis.

Wichtig

Die Häufigkeit des Vorkommens bestimmter Wörter ist nicht einheitlich, sondern variiert von Dokument zu Dokument. Wenn Sie beispielsweise Kundenkommentare zu einem bestimmten Produkt analysieren, kann der Produktname sehr häufig vorkommen und ähnlich einem Füllwort sein, aber in anderen Kontexten als wichtiger Begriff gelten.
Wählen Sie die Option Out-of-Vocabulary rows (Out-of-Vocabulary-Zeilen erkennen) aus, wenn Sie einen Indikator für alle Zeilen generieren möchten, die Wörter enthalten, die nicht im N-Gramm-Vokabular enthalten sind, die als OOV-Wörter (Out of Vocabulary) bezeichnet werden.

Alle Lexikone sind endlich; Daher ist es fast garantiert, dass Ihr Textkorpus Wörter enthält, die nicht im Lexikon oder N-Gramm-Wörterbuch enthalten sind. Solche Wörter können jedoch verschiedene Auswirkungen auf Sprachmodelle haben, einschließlich höherer Fehlerraten im Vergleich zu Wörtern im Vokabular (IV). Je nach Domäne können diese OOV-Wörter wichtige Inhaltswörter darstellen.

Indem Sie Zeilen identifizieren, die diese Wörter enthalten, können Sie entweder die Auswirkungen dieser Begriffe kompensieren oder die Begriffe und die zugehörigen Zeilen separat behandeln.
Wählen Sie die Option Satzanfang markieren aus, um eine Sonderzeichensequenz hinzuzufügen, die den Anfang eines Satzes in Ihrem N-Gramm-Wörterbuch angibt. Das Präfix von N-Grammen, die einen Satz mit einem Sonderzeichen beginnen, ist bei der Textanalyse üblich und kann bei der Analyse von Begrenzungen von Sätzen nützlich sein.

Azure ML Studio (klassisch) fügt das Symbol ein|||. Sie können kein benutzerdefiniertes Zeichen angeben.
Wählen Sie die Option N-Gramm-Featurevektoren normalisieren aus, wenn Sie die Featurevektoren normalisieren möchten. Wenn Sie dies tun, wird jeder N-Gramm-Featurevektor durch seine L2-Norm dividiert.

Die Normalisierung wird standardmäßig verwendet.
Legen Sie Filterbasierte Featureauswahl verwenden aufTrue fest , wenn Sie zusätzliche Optionen zum Verwalten der Größe Ihres Textfunktionsvektors aktivieren möchten.
- Die Featureauswahl kann hilfreich sein, um die Dimensionalität Ihrer N-Gramme zu reduzieren.
- Wenn Sie die Filterauswahl nicht anwenden, werden alle möglichen N-Gramme erstellt, wodurch die Abdeckung erhöht wird, da das Wörterbuch länger wird und möglicherweise viele selten auftretende Begriffe enthalten sind.
- In einem kleinen Korpus kann die Verwendung der Featureauswahl die Anzahl der erstellten Begriffe deutlich reduzieren.
- Weitere Informationen finden Sie unter Filter Based Feature Selection.
Wenn Sie die Featureauswahl verwenden, müssen Sie eine Methode aus der Dropdownliste Featurebewertungsmethode auswählen:
- PearsonCorrelation: Berechnet die Korrelation von Pearson basierend auf dem Wert der Bezeichnungsspalte und dem Textvektor.
- MutualInformation: Berechnet einen gegenseitigen Informationswert basierend auf dem Wert der Bezeichnungsspalte und dem Textvektor.
- KendallCorrelation: Berechnet die Korrelation von Kendall basierend auf dem Wert der Bezeichnungsspalte und dem Textvektor.
- SpearmanCorrelation: Berechnet die Spearman-Korrelation basierend auf dem Wert der Bezeichnungsspalte und dem Textvektor.
- ChiSquared: Verwendet die Chi-Quadrat-Methode, um die Korrelation zwischen dem Bezeichnungsspaltenwert und dem Textvektor zu berechnen.
- FisherScore: Berechnet die Fisher-Bewertung für den Wert der Bezeichnungsspalte und den Textvektor.
- Zählbasierte Featureauswahl: Erstellt neue Features basierend auf der Anzahl von Werten. Für diese Methode ist keine Bezeichnungsspalte erforderlich.
Legen Sie abhängig von der von Ihnen festgelegten Methode eine der folgenden Optionen fest:
- Anzahl gewünschter Features: Erforderlich, wenn Sie eine andere Featureauswahlmethode als die zählbasierte Featureauswahl verwenden.
  
  Bei der Featureauswahl erhalten alle N-Gramme eine Feature-Bewertung, und N-Gramme werden nach Bewertung bewertet. Der wert, den Sie hier festlegen, bestimmt, wie viele der am häufigsten bewerteten Features ausgegeben werden. N-Gramme mit niedrigeren Featureergebnisse werden verworfen.
- Mindestanzahl von Elementen, die nicht 0 (null) sind: Erforderlich, wenn Sie die zählbasierte Featureauswahl verwenden.
  
  Geben Sie eine ganze Zahl ein, die die Mindestanzahl von Instanzen darstellt, die zum Tabulatoren der Anzahl für ein potenzielles Feature erforderlich sind.
Führen Sie das Experiment aus.

In diesem Abschnitt finden Sie eine Erläuterung der Ergebnisse und ihres Formats.

Aktualisieren eines vorhandenen N-Gramm-Wörterbuchs oder Zusammenführen von Wörterbüchern

Fügen Sie ihrem Experiment das Modul Extract N-Gram Features from Text (N-Gramm-Funktionen aus Text extrahieren ) hinzu, und verbinden Sie das Dataset, das den zu verarbeitenden Text enthält, mit dem Datasetport .
Wählen Sie unter Textspalte die Textspalte aus, die den Text enthält, den Sie für die Featurisierung verwenden möchten. Standardmäßig wählt das Modul alle Spalten vom Typ „string“ aus. Um optimale Ergebnisse zu erzielen, verarbeiten Sie jeweils eine einzelne Spalte.
Fügen Sie das gespeicherte Dataset hinzu, das ein zuvor generiertes N-Gramm-Wörterbuch enthält, und verbinden Sie es mit dem Input vocabulary-Port (Eingabevokabular). Sie können auch die Ergebnisvokabularausgabe einer Upstreaminstanz des Moduls Extract N-Gram Features from Text verbinden.

Zum Zusammenführen oder Aktualisieren des Vokabulars muss das Schema des Eingabevokabulars genau mit dem erwarteten Format übereinstimmen. Entfernen Sie keine Spalten aus dem Eingabevokabular, und fügen Sie dem Eingabevokabular keine Spalten hinzu.
Wählen Sie für Vokabularmodus eine der folgenden Updateoptionen aus der Dropdownliste aus:
- ReadOnly: Stellt den Eingabekorpus im Hinblick auf das Eingabevokabular dar. Das heißt, dass anstelle der Berechnung der Begriffshäufigkeiten aus dem neuen Textdataset (in der linken Eingabe) die Gewichtungen des N-Gramms aus dem Eingabevokabular wie besehen angewendet werden.
  
  Tipp
  
  Verwenden Sie diese Option, wenn Sie einen Textklassifizierer bewerten.
- Update: Erstellt ein neues N-Gramm-Vokabular aus dem Eingabekorpus und führt es mit dem Eingabevokabular zusammen. Anders ausgedrückt: Sie können dem erstellten Vokabular neue Einträge aus dem Eingabevokabular hinzufügen oder vorhandene Einträge aktualisieren.
  
  Tipp
  
  Verwenden Sie diese Option für inkrementelle Aktualisierungen des Vokabulars mit eingehenden Datenbatches.
- Merge: Generiert ein neues N-Gramm-Vokabular aus dem Eingabekorpus.
  
  Diese Option ist nützlich, wenn Sie ein Hintergrundvokabular als Eingabe an das Modul übergeben und die Gewichtung von Stoppwörtern reduzieren möchten. Anders ausgedrückt: Jedem Eintrag mit einer hohen Dokumenthäufigkeitsbewertung im Hintergrundvokabular wird im erstellten Vokabular eine niedrigere inverse Dokumenthäufigkeitsbewertung zugewiesen.
  
  Tipp
  
  Verwenden Sie diese Option, wenn Sie dem erstellten Vokabular aus der Eingabe keine neuen Einträge hinzufügen und nur die Bewertungen vorhandener Einträge anpassen möchten.
Die Option Gewichtungsfunktion auswählen ist erforderlich, wenn Sie Vokabular zusammenführen oder aktualisieren. Die Gewichtungsfunktion gibt an, wie die DF- und IDF-Bewertungen in den beiden Vokabularen miteinander gewichtet werden sollen:
- Binary Weight (Binäre Gewichtung): Weist den extrahierten N-Grammen einen binären Wert für das Vorhandensein zu. Anders ausgedrückt: Der Wert für jedes N-Gramm ist 1, wenn es im angegebenen Dokument vorhanden ist, andernfalls 0.
- TF-Gewichtung: Weist den extrahierten n-Grammen eine Term Frequency Score (TF) zu. Der Wert jedes N-Gramm ist die Häufigkeit des Vorkommens im angegebenen Dokument.
- IDF-Gewichtung: Weist den extrahierten n-Grammen eine inverse Dokumenthäufigkeitsbewertung (IDF) zu. Der Wert für jedes N-Gramm ist das Protokoll der Korpusgröße geteilt durch die Häufigkeit seines Vorkommens im gesamten Korpus. Das heißt: IDF = log of corpus_size / document_frequency
- TF-IDF-Gewichtung: Weist den extrahierten n-Grammen eine Begriffshäufigkeits-/inverse Dokumenthäufigkeitsbewertung (TF/IDF) zu. Der Wert für jedes N-Gramm ist die TF-Bewertung multipliziert mit seiner IDF-Bewertung.
- Graph Gewichtung: Weist die Bewertung den extrahierten n-Grammen basierend auf der Rangfolge des TextRank-Diagramms zu. TextRank ist ein graphbasiertes Rangfolgemodell für die Textverarbeitung. Graph-basierte Rangfolgealgorithmen sind im Wesentlichen eine Möglichkeit, die Wichtigkeit basierend auf globalen Informationen zu entscheiden. Weitere Informationen finden Sie unter TextRank: Bringing Order into Texts von Rada Mihalcea und Paul Tarau.
Alle anderen Optionen finden Sie in den Eigenschaftenbeschreibungen im vorherigen Abschnitt.
Führen Sie das Experiment aus.

In diesem Abschnitt finden Sie eine Erläuterung der Ergebnisse und ihres Formats.

Bewerten oder Veröffentlichen eines Modells, das N-Gramme verwendet

Kopieren Sie das Modul Extract N-Gram Features from Text aus dem Trainingsdatenfluss in den Bewertungsdatenfluss.
Verbinden Sie die Ausgabe Result Vocabulary (Ergebnisvokabular) aus dem Trainingsdatenfluss mit dem Input Vocabulary (Eingabevokabular) für den Bewertungsdatenfluss.
Ändern Sie im Bewertungsworkflow das Modul Extract N-Gram Features from Text, und nehmen Sie diese Änderungen vor. Lassen Sie alles andere unverändert:
- Legen Sie den Parameter Vocabulary mode (Vokabularmodus) auf ReadOnly (Schreibgeschützt) fest.
- Ändern Sie die Option Filterbasierte Featureauswahl verwenden in False.
Um das Experiment zu veröffentlichen, speichern Sie das Result Vocabulary (Ergebnisvokabular) als Dataset.

Verbinden Sie dann das gespeicherte Dataset mit dem Modul Extract N-Gram Features from Text in Ihrem Bewertungsgraphen.

Ergebnisse

Das Modul Extract N-Gram Features from Text (Extrahieren von N-Gramm-Features aus Text ) erstellt zwei Arten von Ausgaben:

Ergebnisdataset: Eine Zusammenfassung des analysierten Texts zusammen mit den n-Grammen, die extrahiert wurden. Spalten, die Sie nicht in der Option Textspalte ausgewählt haben, werden an die Ausgabe übergeben. Für jede Textspalte, die Sie analysieren, generiert das Modul diese Spalten:
- NgramsString: Eine Zeichenfolge, die alle eindeutigen n-Gramme enthält.
- NumUniqueNgrams: Die Anzahl der N-Gramme, die mit den angegebenen Eigenschaften extrahiert wurden.
- Sparsematrix von n-Gramm-Vorkommen: Das Modul generiert eine Spalte für jedes N-Gramm, das im Gesamtkorpus gefunden wird, und fügt in jeder Spalte eine Bewertung hinzu, um die Gewichtung des N-Gramms für diese Zeile anzugeben.
Ergebnisvokabular: Das Vokabular enthält das tatsächliche N-Gramm-Wörterbuch zusammen mit den Bewertungen für die Häufigkeit von Begriffen, die als Teil der Analyse generiert werden. Sie können das Dataset zur erneuten Verwendung mit einem anderen Satz von Eingaben oder zur späteren Aktualisierung speichern. Sie können auch die Bewertungen aktualisieren oder das Vokabular für die Modellierung und Bewertung wiederverwenden.

Bespielergebnisse

Um zu veranschaulichen, wie Sie die Ergebnisse verwenden können, wird im folgenden kurzen Beispiel das in Studio (klassisch) verfügbare Amazon Book Review-Dataset verwendet. Das Dataaset wurde gefiltert, um nur Überprüfungen mit einer Bewertung von 4 oder 5 und Überprüfungen mit einer Zeichenfolgenlänge von weniger als 300 Zeichen anzuzeigen.

Aus diesem Dataset wurde eine kurze Überprüfung ausgewählt, die nur 92 Wörter enthält. Hier wurde der Name des Autors durch Xxx und der Buchtitel durch Yyyersetzt:

"Xxx at his best ! Yyy is one of Xxx's best yet! I highly recommend this novel."

Ergebnisdataset für Beispielüberprüfungstext

Für dieses Beispiel hat das Modul die folgenden Spalten generiert:

NumUniqueNgrams: Für diese 92-Wortüberprüfung wurden unter Verwendung der Standardeinstellungen 11 n-Gramme aus der Stichprobenüberprüfung extrahiert.

Als die Länge des N-Gramms auf 3 erhöht und der Skip-Gramm-Wert auf 1 festgelegt wurde, wurden 15 n-Gramme gefunden.

Wenn die Funktionsauswahl auf den Standardwert angewendet wurde, wurden keine N-Gramme extrahiert.
NgramsString: Mit den Standardeinstellungen wurden diese N-Gramme zurückgegeben: ["his", "best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel"]

Mit einer N-Gramm-Länge von 3 und einem Skip-Gramm-Wert von 1 diese n-Gramme wurden zurückgegeben: ["his", "best","one","highly","recommend","this","novel","his_best","highly_recommend","recommend_this","this_novel","best_one","one_best","highly_this","highly_recommend_this"]
Sparsematrix von N-Gramm-Vorkommen

Für diese spezielle Überprüfung enthielten die Ergebnisse die folgenden Spalten:

ReviewText. [verwaltet] ReviewText. [and_highly] ReviewText. [hoch] ReviewText. [highly_recommend]

0 0 0.301511 0.301511

Tipp

Wenn Sie Probleme beim Anzeigen einer bestimmten Spalte haben, fügen Sie das Modul Select Columns in Dataset (Spalten im Dataset auswählen ) an die Ausgabe an, und verwenden Sie dann die Suchfunktion, um Spalten nach Namen zu filtern.

ReviewText. [verwaltet]	ReviewText. [and_highly]	ReviewText. [hoch]	ReviewText. [highly_recommend]
0	0	0.301511	0.301511

Ergebnisvokabular für Beispielüberprüfungstext

Das Vokabular enthält das tatsächliche N-Gramm-Wörterbuch zusammen mit den Bewertungen für die Häufigkeit von Begriffen, die als Teil der Analyse generiert werden. Sie können das Dataset zur erneuten Verwendung mit einem anderen Satz von Eingaben oder zur späteren Aktualisierung speichern. Die Bewertungen DF und IDF werden unabhängig von anderen Optionen generiert. Wenn Sie Vokabular kombinieren, werden diese gespeicherten Werte als Eingabe für die von Ihnen verwendete Gewichtungsfunktion verwendet.

ID: Ein Bezeichner, der für jedes eindeutige N-Gramm generiert wird.
Ngram: Das n-Gramm. Leerzeichen oder andere Worttrennzeichen werden durch Unterstriche ersetzt.
DF: Die Bewertung für die Begriffshäufigkeit für das N-Gramm im ursprünglichen Korpus.
IDF: Die Bewertung für die inverse Dokumenthäufigkeit für das N-Gramm im ursprünglichen Korpus.

Es ist möglich, dieses Dataset manuell zu aktualisieren. Seien Sie jedoch vorsichtig, da Sie Fehler verursachen können. Beispiel:

Wenn das Modul doppelt vorhandene Zeilen mit demselben Schlüssel im Eingabevokabular findet, wird ein Fehler ausgelöst. Stellen Sie sicher, dass keine zwei Zeilen im Vokabular dasselbe Wort aufweisen.
Das Eingabeschema der Vokabulardatasets muss genau übereinstimmen, einschließlich der Spaltennamen und Spaltentypen.
Die Spalte ID und die DF-Bewertungsspalte müssen den Typ „integer“ aufweisen.
Die IDF-Spalte muss vom Typ FLOAT (Gleitkomma) sein.

Technische Hinweise

Es wird empfohlen, mit verschiedenen Wertebereichen für die Länge des N-Gramms, die Anzahl der Skip-Gramme und die Verwendung der Featureauswahl zu experimentieren, um die Dimensionalität Ihres Textkorpus und das optimale Featureverhältnis zu bestimmen.

Weitere Informationen zu n-Grammen und Skip-Grammen finden Sie in den folgenden Ressourcen:

Automatische Auswertung von Zusammenfassungen mithilfe von N-Gramm-Co-Occurrence Statistiken

Erwartete Eingaben

Name	Type	Beschreibung
Dataset	Datentabelle	Eingabedaten
Eingabevokabular	Datentabelle	Eingabevokabular

Modulparameter

Name	Typ	Range	Optional	Standard	Beschreibung
Minimum number of non-zero elements	Integer	>=1	Gilt nur bei Verwendung der folgenden Methode: Count Based	1	Geben Sie die Anzahl der auszugebenden Merkmale an (für die Methode "CountBased").
Textspalte	Spaltenauswahl		Erforderlich	StringFeature	Name oder ein basierter Index der Textspalte
Vokabularmodus	Vokabularmodus	Erstellen ReadOnly Aktualisieren Zusammenführen	Erforderlich	Erstellen	Angeben, wie das N-Gramm-Vokabular aus dem Korpus erstellt werden soll
N-Gramm-Größe	Integer	>=1	Erforderlich	1	Geben Sie die maximale Größe von n Grammen an, die erstellt werden sollen.
K-Skip-Größe	Integer	>=0	Erforderlich	0	Angeben der K-Skip-Größe
Gewichtungsfunktion	Gewichtungsfunktion	Binäre Gewichtung TF-Gewichtung IDF-Gewichtung TF-IDF-Gewichtung Graph Gewichtung	Erforderlich	Binäre Gewichtung	Wählen Sie die Gewichtungsfunktion aus, die auf jeden N-Gramm-Wert angewendet werden soll.
Minimale Wortlänge	Integer	>=1	Erforderlich	3	Angeben der Mindestlänge von Wörtern, die in n Gramme eingeschlossen werden sollen
Maximale Wortlänge	Integer	>=2	Erforderlich	25	Geben Sie die maximale Länge von Wörtern an, die in n Gramme eingeschlossen werden sollen.
Minimale absolute N-Gramm-Dokumenthäufigkeit	Float	>=1,0	Erforderlich	5.0	Minimale absolute N-Gramm-Dokumenthäufigkeit
Maximales n-Gramm-Dokumentverhältnis	Float	>=0,0001	Erforderlich	1.0	Maximales n-Gramm-Dokumentverhältnis
Erkennen von Zeilen außerhalb des Vokabulars	Boolean		Erforderlich	true	Erkennen von Zeilen mit Wörtern, die nicht im N-Gramm-Vokabular (OOV) enthalten sind
Markieren des Satzbeginns	Boolean		Erforderlich	false	Geben Sie an, ob n-Grammen ein Anfangssatzzeichen hinzugefügt werden soll.
Normalisieren von N-Gramm-Featurevektoren	Boolean		Erforderlich		Normalisieren Sie N-Gramm-Featurevektoren. True gibt an, dass der n-Gramm-Featurevektor durch seine L2-Norm dividiert wird.
Verwenden der filterbasierten Featureauswahl	True False Type	Richtig False	Erforderlich	Richtig	Verwenden der filterbasierten Featureauswahl zum Reduzieren der Dimensionalität
Feature scoring method	Bewertungsmethode	Pearson-Korrelation Mutual Information Kendall Correlation Spearman Correlation Chi-Quadrat Fisher Score Count Based	Gilt nur, wenn die Option Filterbasierte Featureauswahl verwenden auf True lautet.	Fisher Score	Wählen Sie die Methode aus, die zur Bewertung verwendet werden soll.
Target column	Spaltenauswahl		Gilt bei Verwendung einer der folgenden Methoden: Pearson-Korrelation Mutual Information Kendall Correlation Spearman Correlation Chi-Quadrat Fisher Score		Geben Sie die Zielspalte an.
Number of desired features	Integer	>=1	Gilt bei Verwendung einer der folgenden Methoden: Pearson-Korrelation Mutual Information Kendall Correlation Spearman Correlation Chi-Quadrat Fisher Score	1	Geben Sie die Anzahl der Merkmale an, die in Ergebnisses ausgegeben werden sollen.

Ausgaben

Name	Type	Beschreibung
Ergebnisdataset	Datentabelle	Extrahierte Features
Ergebnisvokabular	Datentabelle	Ergebnisvokabular

Siehe auch

Textanalyse
A-Z-Liste der Machine Learning Module

Share via