Konvertieren in Indikatorwerte
Dieser Artikel beschreibt eine Komponente von Azure Machine Learning Designer.
Konvertieren Sie mit der Komponente Convert to Indicator Values (Konvertieren in Indikatorwerte) im Azure Machine Learning-Designer Spalten mit Kategoriewerten in eine Reihe von binären Indikatorspalten.
Der Vorgang "In Indikatorwerte konvertieren" ermöglicht die Konvertierung von kategorisierten Daten in Indikatorwerte, die durch binäre oder mehrere Werte dargestellt werden. Dieser Prozess ist eine der Datenvorverarbeitungsschritte, die häufig für Klassifizierungsmodelle verwendet werden.
Diese Komponente gibt außerdem eine Definition der Transformation aus, die zum Konvertieren in Indikatorwerte verwendet wird. Sie können diese Transformation bei anderen Datasets mit demselben Schema wiederverwenden, indem Sie die Komponente Apply Transformation (Transformation anwenden) einsetzen.
Konfigurieren von Convert to Indicator Values
Suchen Sie das Modul Convert to Indicator Values, und ziehen Sie es in den Pipelineentwurf. Sie finden diese Komponente unter der Kategorie Datentransformation.
Hinweis
Sie können die Komponente Edit Metadata (Metadaten bearbeiten) vor der Komponente Convert to Indiciator Values verwenden, um die Zielspalte(n) als Kategorie zu markieren.
Verbinden Sie die Komponente Convert to Indicator Values mit dem Dataset, das die zu konvertierenden Spalten enthält.
Verwenden Sie Spalte bearbeiten, um mindestens eine Kategoriespalte auszuwählen.
Wählen Sie die Option Overwrite categorical columns (Kategoriespalten überschreiben) aus, wenn Sie nur die neuen booleschen Spalten ausgeben möchten. Diese Option ist standardmäßig deaktiviert.
Tipp
Wenn Sie die Option zum Überschreiben auswählen, wird die Quellspalte nicht gelöscht oder geändert. Stattdessen werden die neuen Spalten generiert und im Ausgabedataset dargestellt, und die Quellspalte bleibt im Arbeitsbereich verfügbar. Wenn Sie die ursprünglichen Daten anzeigen müssen, können Sie jederzeit die Komponente Add Columns (Spalten hinzufügen) verwenden, um die Quellspalte wieder hinzuzufügen.
Übermitteln Sie die Pipeline.
Ergebnisse
Angenommen, eine Ihrer Spalten enthält Scores, die angeben, ob die Wahrscheinlichkeit eines Servers für einen Fehler hoch, mittel oder niedrig ist.
Server-ID | Fehlerscore |
---|---|
10301 | Niedrig |
10302 | Medium |
10303 | High |
Wenn Sie Convert to Indicator Values anwenden, konvertiert der Designer eine einzelne Spalte von Bezeichnungen in mehrere Spalten, die boolesche Werte enthalten:
Server-ID | Fehlerscore – niedrig | Fehlerscore – mittel | Fehlerscore – hoch |
---|---|---|---|
10301 | 1 | 0 | 0 |
10302 | 0 | 1 | 0 |
10303 | 0 | 0 | 1 |
Die Konvertierung funktioniert folgendermaßen:
Die Spalte Failure score (Fehlerscore), die das Risiko beschreibt, kann nur drei mögliche Werte (hoch, mittel und niedrig) und keine fehlenden Werte aufweisen. Daher werden genau drei neue Spalten erstellt.
Die neuen Indikatorspalten werden basierend auf den Spaltenüberschriften und Werten der Quellspalte nach diesem Muster benannt: <Quellspalte>- <Datenwert>.
Es sollte in genau einer Indikatorspalte eine 1 und in allen anderen Indikatorspalten eine 0 enthalten sein, da jeder Server nur eine Risikobewertung aufweisen kann.
Sie können jetzt die drei Indikatorspalten als Features in einem Machine Learning-Modell verwenden.
Die Komponente gibt zwei Ausgaben zurück:
- Ergebnisdataset: Ein Dataset mit konvertierten Indikatorwertspalten. Spalten, die nicht zur Bereinigung ausgewählt wurden, werden auch „per Pass-Through übergeben“.
- Transformation der Indikatorwerte: Eine für die Konvertierung in Indikatorwerte verwendete Datentransformation, die in Ihrem Arbeitsbereich gespeichert und später auf neue Daten angewandt werden kann.
Anwenden eines gespeicherten Indikatorwertvorgangs auf neue Daten
Wenn Sie häufig Indikatorwertvorgänge wiederholen müssen, können Sie die Schritte zur Datenbearbeitung als Transformation speichern, um sie mit demselben Dataset wiederzuverwenden. Dies ist hilfreich, wenn Sie häufig Daten mit demselben Schema erneut importieren und dann bereinigen müssen.
Fügen Sie die Komponente Apply Transformation (Transformation anwenden) zu Ihrer Pipeline hinzu.
Fügen Sie dann das zu bereinigende Dataset hinzu, und verbinden Sie es mit dem rechten Eingangsport.
Erweitern Sie die Gruppe Datentransformation im linken Bereich des Designers. Suchen Sie nach der gespeicherten Transformation, und ziehen Sie sie in die Pipeline.
Verbinden Sie die gespeicherte Transformation mit dem linken Eingangsport von Apply Transformation.
Wenn Sie eine gespeicherte Transformation anwenden, können Sie nicht auswählen, welche Spalten transformiert werden sollen. Dies liegt daran, dass die Transformation definiert wurde und automatisch für die im ursprünglichen Vorgang angegebenen Datentypen gilt.
Übermitteln Sie die Pipeline.
Technische Hinweise
Dieser Abschnitt enthält Implementierungsdetails, Tipps und Antworten auf häufig gestellte Fragen.
Verwendungstipps
Nur Spalten, die als Kategorie markiert sind, können in Indikatorspalten konvertiert werden. Wenn der folgende Fehler angezeigt wird, ist wahrscheinlich eine der ausgewählten Spalten keine Kategorie:
Fehler 0056: Die Spalte mit dem Namen <Spaltenname> ist nicht in einer zulässigen Kategorie vorhanden.
Standardmäßig werden die meisten Zeichenfolgenspalten als Zeichenfolgenfeatures behandelt, sodass Sie sie explizit mithilfe von Edit Metadata als Kategorie markieren müssen.
Die Anzahl von Spalten, die Sie in Indikatorspalten konvertieren können, ist nicht beschränkt. Da jedoch jede Spalte mit Werten mehrere Indikatorspalten liefern kann, sollten Sie nur einige Spalten gleichzeitig konvertieren und überprüfen.
Wenn in der Spalte Werte fehlen, wird für die fehlende Kategorie eine separate Indikatorspalte mit dem folgenden Namen erstellt: <Quellspalte>- Missing.
Wenn die Spalte, die Sie in Indikatorwerte konvertieren, Zahlen enthält, muss diese wie jede andere Featurespalte als Kategorie markiert werden. Anschließend werden die Zahlen als diskrete Werte behandelt. Wenn beispielsweise eine numerische Spalte mit Verbrauchswerten in MPG (Miles per Gallon) zwischen 25 und 30 vorhanden ist, wird für jeden diskreten Wert eine neue Indikatorspalte erstellt:
Make Highway mpg -25 Highway mpg -26 Highway mpg -27 Highway mpg -28 Highway mpg -29 Highway mpg -30 Contoso – Autos 0 0 0 0 0 1 Um zu vermeiden, dass dem Dataset zu viele Dimensionen hinzugefügt werden, wird empfohlen, zuerst die Anzahl der Werte in der Spalte zu überprüfen und die Daten entsprechend einzuordnen oder zu quantifizieren.
Nächste Schritte
Hier finden Sie die für Azure Machine Learning verfügbaren Komponenten.