Train Vowpal Wabbit Version 8 Model (Vowpal Wabbit-Modelle der Version 8 trainieren)

Artikel
05/06/2019

Wichtig

Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.

Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.

Siehe Migrieren zu Azure Machine Learning
Weitere Informationen zu Azure Machine Learning.

Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.

Trainiert ein Modell mit Version 8 des Machine Learning-Systems von Vowpal Wabbit

Kategorie: Textanalyse

Hinweis

Gilt nur für: Machine Learning Studio (klassisch)

Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.

Modulübersicht

In diesem Artikel wird beschrieben, wie Sie das Modul Train Vowpal Wabbit Version 8 in Machine Learning Studio (classic) verwenden, um mithilfe von Vowpal Wabbit (Version 8) ein Machine Learning-Modell zu erstellen.

Um Vowpal Wabbit für maschinelles Lernen zu verwenden, formatieren Sie Ihre Eingabe gemäß den Vowpal Wabbit-Anforderungen, und speichern Sie die Daten in einem Azure-Blob. Verwenden Sie dieses Modul, um Vowpal Wabbit-Befehlszeilenargumente anzugeben.

Wenn das Experiment ausgeführt wird, wird eine Instanz von Vowpal Wabbit zusammen mit den angegebenen Daten in die Experimentlaufzeit geladen. Nach Abschluss des Trainings wird das Modell zurück in den Arbeitsbereich serialisiert. Sie können das Modell sofort verwenden, um Daten zu bewerten. Das trainierte Modell wird auch im Azure-Speicher beibehalten, sodass Sie es später verwenden können, ohne die Trainingsdaten erneut verarbeiten zu müssen.

Um ein vorhandenes Modell inkrementell mit neuen Daten zu trainieren, verbinden Sie ein gespeichertes Modell mit der Vortrainierten Modelleingabe , und fügen Sie die neuen Daten der anderen Eingabe hinzu.

Hinweis

Machine Learning Studio (klassisch) hostet mehrere Versionen des Vowpal Wabbit-Frameworks. Dieses Modul verwendet die neueste Version des Vowpal Wabbit-Frameworks, version 8. Um neue Eingabedaten zu bewerteten, müssen Sie Score Vowpal Wabbit Version 8 Model verwenden.

Vowpal Wabbit Version 7-4 oder 7-6: Train Vowpal Wabbit 7-4 Model and Score Vowpal Wabbit 7-4 Model.

Vowpal Wabbit Version 7-10: Train Vowpal Wabbit 7-10 Model and Score Vowpal Wabbit 7-10 Model.

Was ist Vowpal Wabbit?

Vowpal Wabbit (VW) ist ein schnelles paralleles Framework für maschinelles Lernen, das von Yahoo! Research für verteilte Verarbeitung entwickelt und später nach Windows portiert und von John Langford (Microsoft Research) für wissenschaftliche Verarbeitung in Parallelarchitekturen angepasst wurde.

Wichtige Features von Vowpal Wabbit für maschinelles Lernen sind unter anderem stetiges Lernen (Onlinelernen), Verringern der Dimensionalität und interaktives Lernen. Vowpal Wabbit ist auch eine Lösung für Probleme, wenn die Modelldaten nicht in den Arbeitsspeicher passen.

Die primären Benutzer von Vowpal Wabbit sind Data Scientists, die das Framework bereits für Machine-Learning-Tasks wie Klassifizierung, Regression, Themenmodellierung und Matrixfaktorisierung verwendet haben. Die Leistungsmerkmale des Azure-Wrappers für Vowpal Wabbit ähneln denen der lokalen Version sehr, sodass Sie die leistungsstarken Features und die native Leistung von Vowpal Wabbit nutzen und das trainierte Modell problemlos als operationalisierten Dienst veröffentlichen können.

Das Modul Feature Hashing enthält ebenfalls von Vowpal Wabbit bereitgestellte Funktionen, mit denen Sie Textdatasets mithilfe eines Hashalgorithmus in binäre Features umwandeln können.

Konfigurieren des Vowpal Wabbit Version 8-Modells

In diesem Abschnitt wird erläutert, wie Sie ein neues Modell trainieren und neue Daten zu einem vorhandenen Modell hinzufügen.

Im Gegensatz zu anderen Modulen in Studio (klassisch) gibt dieses Modul sowohl die Modulparameter an als auch trainiert das Modell. Wenn Sie über ein bereits vorhandenes Modell verfügen, können Sie es als optionale Eingabe hinzufügen, um das Modell inkrementell zu trainieren.

Vorbereiten der Eingabedaten in einem der erforderlichen Formate
Trainieren eines neuen Modells
Inkrementelles Trainieren eines vorhandenen Modells

Die Verwendung dieses Moduls erfordert die Authentifizierung bei einem Azure-Speicherkonto.

Vorbereiten der Eingabedaten

Um ein Modell mit diesem Modul zu trainieren, muss das Eingabedataset aus einer einzelnen Textspalte in einem der beiden unterstützten Formate bestehen: LibSVM oder VW. Dies bedeutet nicht, dass Vowpal Wabbit nur Textdaten analysiert, sondern lediglich, dass die Features und Werte im erforderlichen Textdateiformat vorbereitet werden müssen.

Die Daten müssen aus Azure Storage gelesen werden. Es ist nicht möglich, datenexportieren zum direkten Speichern der Eingabedatei in Azure für die Verwendung mit Vowpal Wabbit zu verwenden, da das Format einige zusätzliche Änderungen erfordert. Sie müssen sicherstellen, dass die Daten das richtige Format aufweisen, und dann die Daten in Azure Blob Storage hochladen.

Als Verknüpfung können Sie jedoch das Modul Convert to SVMLight (In SVMLight konvertieren ) verwenden, um eine SVMLight-Formatdatei zu generieren. Anschließend können Sie entweder die SVMLight-Formatdatei in Azure Blob Storage hochladen und als Eingabe verwenden, oder Sie können die Datei geringfügig so ändern, dass sie den Anforderungen der Vowpal Wabbit-Eingabedatei entspricht.

Das Vowpal Wabbit-Datenformat hat den Vorteil, dass es kein Spaltenformat erfordert, wodurch sich Speicherplatz sparen lässt, wenn dünn besetzte Daten verarbeitet werden. Weitere Informationen zu diesem Format finden Sie auf der Vowpal Wabbit-Wikiseite.

Erstellen und Trainieren eines Vowpal Wabbit-Modells

Fügen Sie Ihrem Experiment das Modul Train Vowpal Wabbit Version 8 hinzu.
Geben Sie das Konto an, in dem die Trainingsdaten gespeichert werden. Das trainierte Modell und die Hashdatei werden am gleichen Speicherort gespeichert.
- Geben Sie unter Name des Azure-Speicherkontos den Namen des Azure-Speicherkontos ein.
- Kopieren Sie für Azure-Speicherschlüssel den Schlüssel, der für den Zugriff auf das Speicherkonto bereitgestellt wird, und fügen Sie ihn ein.
Wenn Sie nicht über einen Schlüssel verfügen, finden Sie weitere Informationen unter How to regenerate storage access keys (Neugenerieren von Speicherzugriffsschlüsseln).
Geben Sie unter Azure-Containername den Namen eines einzelnen Containers im angegebenen Azure-Speicherkonto ein, in dem die Modelltrainingsdaten gespeichert sind. Geben Sie weder den Kontonamen noch ein Protokollpräfix ein.

Wenn der vollständige Containerpfad und -name z. B. lautet https://myaccount.blob.core.windows.net/vwmodels, sollten Sie nur vwmodelseingeben. Weitere Informationen zu Containernamen finden Sie unter Benennen und Verweisen auf Container, Blobs und Metadaten.
Geben Sie im Textfeld VW arguments (VW-Argumente) die Befehlszeilenargumente für die ausführbare Datei für Vowpal Wabbit an.

Beispielsweise können Sie –l hinzufügen, um die Lerngeschwindigkeit anzugeben, oder -b , um die Anzahl von Hashingbits anzugeben.

Weitere Informationen finden Sie im Abschnitt über Vowpal Wabbit-Parameter.
Name der VW-Eingabedatei: Geben Sie den Namen der Datei ein, die die Eingabedaten enthält. Die Datei muss eine vorhandene Datei in Azure Blob Storage sein, die sich im zuvor angegebenen Speicherkonto und Container befindet. Die Datei muss mit einem der unterstützten Formate vorbereitet worden sein.
Name der ausgabelesbaren Modelldatei (--readable_model): Geben Sie den Namen einer Datei ein, in der das trainierte Modell gespeichert werden soll. Die Datei muss im gleichen Speicherkonto und Container wie die Eingabedatei gespeichert werden.

Dieses Argument entspricht dem Parameter --readable_model in der VW-Befehlszeile.
Name der ausgabeinvertierten Hashdatei (--invert_hash): Geben Sie den Namen der Datei ein, in der die invertierte Hashfunktion gespeichert werden soll. Die Datei muss im gleichen Speicherkonto und Container wie die Eingabedatei gespeichert werden.

Dieses Argument entspricht dem Parameter --invert_hash in der VW-Befehlszeile.
Geben Sie den Dateityp an: Geben Sie an, welches Format Ihre Trainingsdaten verwenden. Vowpal Wabbit unterstützt die folgenden beiden Eingabedateiformate:
- VW ist das von Vowpal Wabbit verwendete interne Format. Ausführliche Informationen finden Sie auf der Vowpal Wabbit-Wikiseite.
- SVMLight ist ein von einigen anderen Machine-Learning-Tools verwendetes Format.
Wählen Sie die Option Zwischengespeicherte Ergebnisse verwenden aus, wenn Sie die Daten nicht jedes Mal aus dem Speicher laden möchten, wenn das Experiment erneut hergestellt wird. Wenn keine anderen Parameter geändert wurden und ein gültiger Cache gefunden werden kann, verwendet Studio (klassisch) eine zwischengespeicherte Version der Daten.

Wenn diese Option deaktiviert ist, liest das Modul immer die Daten aus dem Speicher.
Führen Sie das Experiment aus.
Klicken Sie nach Abschluss des Trainings mit der rechten Maustaste auf die Ausgabe, und wählen Sie Als trainiertes Modell speichern aus, um das Modell in Ihrem (klassischen) Studio-Arbeitsbereich zu speichern.

Neutrainieren eines vorhandenen Vowpal Wabbit-Modells

Vowpal Wabbit unterstützt inkrementelles Training durch Hinzufügen neuer Daten zu einem vorhandenen Modell. Es gibt zwei Möglichkeiten, ein vorhandenes Modell zum Neutrainieren zu erhalten:

Verwenden Sie die Ausgabe eines anderen Moduls train Vowpal Wabbit Version 8 im gleichen Experiment.
Suchen Sie im linken Navigationsbereich von Studio (klassisch) in der Gruppe Trainierte Modelle nach einem gespeicherten Modell, und ziehen Sie es in Ihr Experiment.

Fügen Sie Ihrem Experiment das Modul Train Vowpal Wabbit Version 8 hinzu.
Verbinden das zuvor trainierte Modell an den Eingabeport von Train Vowpal Wabbit Version 8.
Geben Sie im Eigenschaftenbereich von Train Vowpal Wabbit Version 8 (Vowpal Wabbit-Version 8 trainieren) den Speicherort und das Format der neuen Trainingsdaten an.
Geben Sie einen Namen für die für Menschen lesbare Modellausgabedatei und einen anderen Namen für die Hashdatei an, die dem aktualisierten Modell zugeordnet ist.

Hinweis

Wenn am angegebenen Speicherort ein Vowpal Wabbit-Modell oder eine Hashdatei vorhanden ist, werden die Dateien automatisch vom neuen trainierten Modell überschrieben. Um zwischengeschaltete Modelle beim erneuten Training beizubehalten, müssen Sie den Speicherort ändern oder eine lokale Kopie der Modelldateien erstellen.
Führen Sie das Experiment aus.
Klicken Sie mit der rechten Maustaste auf das Modul, und wählen Sie Als trainiertes Modell speichern aus, um das aktualisierte Modell in Ihrem Machine Learning Arbeitsbereich beizubehalten. Wenn Sie keinen neuen Namen angeben, wird das vorhandene gespeicherte Modell durch das aktualisierte Modell überschrieben.

Beispiele

Beispiele für die Verwendung von Vowpal Wabbit in Machine Learning finden Sie im Azure KI-Katalog:

Vowpal Wabbit-Beispiel

Dieses Experiment veranschaulicht die Datenvorbereitung, das Training und die Operationalisierung eines VW-Modells.

Sehen Sie sich außerdem die folgenden Ressourcen an:

Blog, der die Implementierung und Roadmap von Vowpal Wabbit beschreibt

https://blogs.technet.com/b/machinelearning/archive/2014/10/02/vowpal-wabbit-modules-in-azureml.aspx

Technische Hinweise

Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.

Vorteile von Vowpal Wabbit

Vowpal Wabbit bietet äußerst schnelles Lernen mithilfe von nichtlinearen Features wie N-Grammen.

Das Framework verwendet Techniken für Onlinelernen, z. B. den stochastischen Gradientenabstieg (Stochastic Gradient Descent, SGD), um ein Modell datensatzweise anzupassen. Daher durchläuft Vowpal Wabbit Rohdaten sehr schnell und kann schneller einen guten Prädiktor entwickeln als die meisten anderen Modelle. Mit diesem Ansatz wird außerdem vermieden, dass alle Trainingsdaten in den Arbeitsspeicher gelesen werden müssen.

Vowpal Wabbit konvertiert alle Daten in Hashes, d. h. nicht nur Textdaten, sondern auch andere Kategorievariablen. Die Verwendung von Hashes macht Suchvorgänge für Regressionsgewichtungen effizienter, was für einen effektiven stochastischen Gradientenabstieg unverzichtbar ist.

Während des Trainings ruft das Modul einen für Azure entwickelten Vowpal Wabbit-Wrapper auf. Die Trainingsdaten werden in Blöcken aus Azure heruntergeladen, wobei die hohe Bandbreite zwischen den Workerrollen, die die Berechnungen ausführen, und dem Speicher genutzt wird. Sie werden an die VW-Lerner gestreamt. Das resultierende Modell ist aufgrund der internen Komprimierung durch VW im Allgemeinen sehr kompakt. Das Modell wird zurück in den Experimentarbeitsbereich kopiert, wo es wie andere Modelle in Machine Learning verwendet werden kann.

Unterstützte und nicht unterstützte Parameter

In diesem Abschnitt wird die Unterstützung für Vowpal Wabbit-Befehlszeilenparameter in Machine Learning Studio (klassisch) beschrieben.

Grundsätzlich werden bis auf ein paar wenige Ausnahmen alle Argumente unterstützt. Eine vollständige Liste der Argumente finden Sie auf der Vowpal Wabbit-Wikiseite.

Die folgenden Parameter werden nicht unterstützt:

Die unter https://github.com/JohnLangford/vowpal_wabbit/wiki/Command-line-arguments aufgeführten Eingabe-/Ausgabeoptionen.

Diese Eigenschaften werden bereits automatisch vom Modul konfiguriert.
Außerdem sind alle Optionen, die mehrere Ausgaben generieren oder mehrere Eingaben erfordern, nicht zulässig. Dazu zählen --cbt , --lda und --wap .
Nur überwachte Lernalgorithmen werden unterstützt. Daher werden diese Optionen nicht unterstützt: –active, --rankusw --search . ### Einschränkungen

Beschränkungen

Da das Ziel des Diensts ist, erfahrene Benutzer von Vowpal Wabbit zu unterstützen, müssen die Eingabedaten vorab im nativen Vowpal Wabbit-Textformat vorbereitet werden statt in von anderen Modulen verwendeten Datasetformaten.

Anstatt Daten im Azure ML-Arbeitsbereich zu verwenden, werden die Trainingsdaten direkt aus Azure gestreamt, um maximale Leistung und minimalen Analyseaufwand zu erzielen. Aus diesem Grund gibt es nur eingeschränkte Interoperabilität zwischen den VW-Modulen und anderen Modulen in Azure ML.

Modulparameter

Name	Range	type	Optional	Standard	Beschreibung
Please specify file type	VW SVMLight	DataType	Erforderlich	VW	Geben Sie an, ob der Dateityp SVMLight oder Vowpal Wabbit ist.
Azure-Speicherkontoname	any	String	Erforderlich		Geben Sie den Namen des Azure-Speicherkontos ein.
Azure-Speicherschlüssel	any	SecureString	Erforderlich		Geben Sie den Azure-Speicherschlüssels an.
Azure container name	any	String	Erforderlich		Geben Sie den Namen der Azure-Containers ein.
VW arguments	any	String	Optional		Geben Sie die jeweiligen Vowpal Wabbit- Argumente an. Schließen Sie -f nicht ein.
Name of the input VW file	any	String	Erforderlich		Geben Sie den Namen einer Eingabedatei an, die im Vowpal Wabbit-Format vorliegt.
Name of the output readable model (--readable_model) file	any	String	Optional		Ist ein Name angegeben, wird ein lesbares Modell in den Azure-Container ausgegeben.
Name of the output inverted hash (--invert_hash) file	Zeichenfolge	String	Optional		Ist ein Name angegeben, wird eine Datei, die die invertierte Hashfunktion enthält, in den Azure-Container ausgegeben.

Ausgaben

Name	Type	BESCHREIBUNG
Trainiertes Modell	ILearner-Schnittstelle	Trainiertes Lernmodul

Ausnahmen

Ausnahme	Beschreibung
Fehler 0001	Eine Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten des Datasets nicht gefunden werden konnten.
Fehler 0003	Eine Ausnahme tritt auf, wenn mindestens eine Eingabe NULL oder leer ist.
Fehler 0004	Eine Ausnahme tritt auf, wenn der Parameter kleiner als oder gleich dem bestimmten Wert ist.
Fehler 0017	Die Ausnahme tritt auf, wenn eine oder mehrere angegebene Spalten einen Typ aufweisen, der im aktuellen Modul nicht unterstützt wird.

Eine Liste der Fehler, die für Studio-Module (klassisch) spezifisch sind, finden Sie unter Machine Learning Fehlercodes.

Eine Liste der API-Ausnahmen finden Sie unter Machine Learning REST-API-Fehlercodes.

Siehe auch

Textanalyse
Feature Hashing
Erkennung benannter Entitäten
Bewerten des Vowpal Wabbit 7–4-Modells
Bewertung des Vowpal Wabbit Version 8-Modells.
Trainieren des Vowpal Wabbit 7-4-Modells
Modulliste von A bis Z