Konvertieren in ein Dataset
Wichtig
Der Support für Machine Learning Studio (klassisch) endet am 31. August 2024. Es wird empfohlen, bis zu diesem Datum auf Azure Machine Learning umzustellen.
Ab dem 1. Dezember 2021 können Sie keine neuen Ressourcen in Machine Learning Studio (klassisch) mehr erstellen. Bis zum 31. August 2024 können Sie die vorhandenen Ressourcen in Machine Learning Studio (klassisch) weiterhin verwenden.
- Siehe Migrieren zu Azure Machine Learning
- Weitere Informationen zu Azure Machine Learning.
Die Dokumentation zu ML Studio (klassisch) wird nicht mehr fortgeführt und kann künftig nicht mehr aktualisiert werden.
Konvertiert Dateneingaben in das interne Datasetformat, das von Microsoft Machine Learning
Kategorie: Datenformatkonvertierungen
Hinweis
Gilt für: Machine Learning Studio (klassisch)
Ähnliche Drag & Drop-Module sind im Azure Machine Learning-Designer verfügbar.
Modulübersicht
In diesem Artikel wird beschrieben, wie Sie das Modul Convert to Dataset (In Dataset konvertieren) in Machine Learning Studio (klassisch) verwenden, um alle Daten, die Sie für ein Experiment benötigen, in das interne Format zu konvertieren, das von Studio (klassisch) verwendet wird.
Die Konvertierung ist in den meisten Fällen nicht erforderlich, da Machine Learning Daten implizit in das native Datasetformat konvertiert, wenn ein Vorgang für die Daten ausgeführt wird.
Es empfiehlt sich aber, Daten im Datasetformat zu speichern, wenn Sie eine Datenmenge in irgendeiner Weise normalisiert oder bereinigt haben und sicherstellen möchten, dass die Änderungen in weiteren Experimenten verwendet werden.
Hinweis
Beachten Sie, dass mit Convert to Dataset nur das Format der Daten geändert und keine neue Kopie der Daten im Arbeitsbereich gespeichert wird. Um das Dataset zu speichern, doppelklicken Sie auf den Ausgabeport, wählen Sie Als Dataset speichern aus, und geben Sie einen neuen Namen ein.
Verwenden von Convert to Dataset
Es wird empfohlen, das Dataset mit dem Modul Edit Metadata vorzubereiten, bevor Sie Convert to Dataset verwenden. Sie können Spaltennamen hinzufügen oder ändern, Datentypen anpassen usw.
Fügen Sie ihrem Experiment das Modul Convert to Dataset (In Dataset konvertieren) hinzu. Sie finden dieses Modul in der Kategorie Datenformatkonvertierungen in Machine Learning Studio (klassisch).
Verbinden Sie es mit einem beliebigen Modul, das ein Dataset ausgibt.
Solange die Daten tabellarisch sind, können Sie sie in ein Dataset konvertieren. Dies schließt Daten ein, die mithilfe von Daten importieren geladen wurden, Daten, die mithilfe von Daten manuell eingeben erstellt wurden, Daten, die durch Code in benutzerdefinierten Modulen generiert wurden, Datasets, die mithilfe der Transformation anwenden transformiert wurden, oder Datasets, die mit apply SQL Transformation generiert oder geändert wurden.
Geben Sie in der Dropdownliste Aktion an, ob eine Datenbereinigung ausgeführt werden soll, bevor das Dataset gespeichert wird:
Keine: Daten unverändert verwenden.
SetMissingValue: Geben Sie einen Platzhalter an, der in das Dataset eingefügt wird, wenn ein Wert fehlt. Der Standardplatzhalter ist das Fragezeichen (?), aber Sie können die Option Benutzerdefinierter fehlender Wert verwenden, um einen anderen Wert ein geben.
ReplaceValues: Verwenden Sie diese Option, um einen einzelnen exakten Wert anzugeben, der durch einen anderen exakten Wert ersetzt werden soll. Angenommen, Ihre Daten enthalten
obs
die Zeichenfolge, die als Platzhalter für fehlende Werte verwendet wird, können Sie mithilfe dieser Optionen einen benutzerdefinierten Ersetzungsvorgang angeben:Legen Sie Ersetzen aufBenutzerdefiniert fest.
Geben Sie für Benutzerdefinierter Wert den Wert ein, den Sie suchen möchten. In diesem Fall geben Sie ein
obs
.Geben Sie für Neuer Wert den neuen Wert ein, durch den die ursprüngliche Zeichenfolge ersetzt werden soll. In diesem Fall können Sie eingeben.
?
Beachten Sie, dass der Vorgang ReplaceValues nur für exakte Übereinstimmungen gilt. Diese Zeichenfolgen sind z. B. nicht betroffen:
obs.
,obsolete
.- SparseOutput: Gibt an, dass das Dataset sparse ist. Indem Sie einen Sparsedatenvektor erstellen, können Sie sicherstellen, dass fehlende Werte sich nicht auf die Verteilung von Sparsedaten auswirken. Nachdem Sie diese Option ausgewählt haben, müssen Sie angeben, wie fehlende Werte und 0 (null) Werte behandelt werden sollen.
Um einen anderen Wert als 0 (null) zu entfernen, klicken Sie auf die Option Entfernen , und geben Sie einen einzelnen zu entfernenden Wert ein. Sie können fehlende Werte entfernen oder einen benutzerdefinierten Wert festlegen, der aus dem Vektor gelöscht werden soll. Es werden nur genaue Übereinstimmungen entfernt. Wenn Sie beispielsweise in das Textfeld
x
Wert entfernen eingeben, ist die Zeilexx
nicht betroffen.Standardmäßig ist die Option Nullen entfernen auf festgelegt. Dies
True
bedeutet, dass alle Nullwerte entfernt werden, wenn die Sparsespalte erstellt wird.Führen Sie das Experiment aus, oder klicken Sie mit der rechten Maustaste auf das Modul In Dataset konvertieren , und wählen Sie Ausgewählte ausführen aus.
Ergebnisse
- Um das resultierende Dataset unter einem neuen Namen zu speichern, klicken Sie mit der rechten Maustaste auf die Ausgabe von Convert to Dataset, und wählen Sie Als Dataset speichern aus.
Beispiele
Beispiele für die Verwendung des Moduls Convert to Dataset finden Sie im Azure KI-Katalog:
CRM-Beispiel: Liest aus einem freigegebenen Dataset und speichert eine Kopie des Datasets im lokalen Arbeitsbereich.
Beispiel für Flugverzögerung: Speichert ein Dataset, das bereinigt wurde, indem fehlende Werte ersetzt werden, damit Sie es für zukünftige Experimente verwenden können.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
An jedes Modul, an das ein Dataset als Eingabe übergeben werden kann, können auch Daten im CSV-, TSV- oder ARFF-Format übergeben werden. Bevor irgendein Modulcode ausgeführt wird, erfolgt eine Vorverarbeitung der Eingaben, die das gleiche Ergebnis hat wie ein Ausführen des Moduls Convert to Dataset für die Eingabe.
Das SVMLight-Format kann nicht in ein Dataset konvertiert werden.
Wenn Sie einen benutzerdefinierten Ersetzungsvorgang angeben, wird der Such- und Ersetzungsvorgang auf vollständige Werte angewandt. Teilübereinstimmungen sind nicht zulässig. Sie können z. B. eine 3 durch eine –1 oder durch 33 ersetzen, aber die 3 in einer zweistelligen Zahl wie z. B. 35 kann nicht ersetzt werden.
Bei benutzerdefinierten Ersetzungsvorgängen tritt bei der Ersetzung automatisch ein Fehler auf, wenn Sie ein Ersetzungszeichen verwenden, das nicht dem aktuellen Datentyp der Spalte entspricht.
Wenn Sie Daten speichern müssen, die numerische Daten verwenden, die wenig stark sind und werte fehlen, unterstützt Studio (klassisch) intern Sparsearrays mithilfe eines SparseVector, bei dem es sich um eine Klasse in der numerischen bibliothek Math.NET handelt. Bereiten Sie Ihre Daten vor, die Nullen verwenden und fehlende Werte enthalten, und verwenden Sie dann Convert to Dataset (In Dataset konvertieren) mit den Argumenten SparseOutput und Remove Zeros = TRUE.
Erwartete Eingaben
Name | Type | Beschreibung |
---|---|---|
Dataset | Datentabelle | Eingabedataset |
Modulparameter
Name | Range | type | Standard | Beschreibung |
---|---|---|---|---|
Aktion | Liste | Aktionsmethode | Keine | Die Aktion, die auf das Eingabedataset angewendet werden soll |
Output
Name | Type | Beschreibung |
---|---|---|
Ergebnisdataset | Datentabelle | Ausgabedataset |