Automatisiertes ML in Fabric (Vorschau)

2024-11-19

Automatisiertes maschinelles Lernen (automatisiertes ML) ermöglicht es Benutzenden, Modelle des maschinellen Lernens zu erstellen und bereitzustellen, indem sie die zeitaufwendigen und komplexesten Teile des Modellentwicklungsprozesses automatisieren. Traditionell erfordert das Erstellen eines Modells des maschinellen Lernens Kenntnisse in Data Science, Modellauswahl, Hyperparameteroptimierung und -auswertung – ein Prozess, der ressourcenintensiv und anfällig für Versuch und Irrtum sein kann. Automatisiertes ML vereinfacht das, indem automatisch die besten Algorithmen ausgewählt, Hyperparameter optimiert und optimierte Modelle basierend auf den Eingabedaten und den gewünschten Ergebnissen generiert werden.

In Microsoft Fabric wird automatisiertes ML noch leistungsstärker, indem es nahtlos in das Datenökosystem der Plattform integriert wird, sodass Benutzende Modelle direkt in ihren Lakehouses erstellen, trainieren und bereitstellen können. Mit automatisiertem ML können sowohl technische als auch nicht technische Benutzende schnell Vorhersagemodelle erstellen und maschinelles Lernen für ein breiteres Publikum zugänglich machen. Von Vorhersagen der Nachfrage bis hin zur Erkennung von Anomalien und der Optimierung von Geschäftsvorgängen beschleunigt automatisiertes ML in Fabric den Weg von Rohdaten zu umsetzbaren Erkenntnissen und ermöglicht Benutzenden die Nutzung von KI mit minimalem Aufwand und maximalem Einfluss.

Wichtig

Dieses Feature befindet sich in der Vorschauphase.

Wie funktioniert automatisiertes maschinelles Lernen?

FLAML (Fast and Lightweight automatisiertes ML) unterstützt die Funktionen von automatisiertem ML in Fabric, sodass Benutzende Modelle des maschinellen Lernens nahtlos im Datenökosystem der Plattform erstellen, optimieren und bereitstellen können.

FLAML ist eine Open-Source-Bibliothek des automatisierten MLs, die darauf ausgelegt ist, präzise Modelle schnell bereitzustellen, indem sie sich auf Effizienz konzentrieren, Rechenkosten minimieren und Hyperparameter dynamisch optimieren. Hinter den Kulissen automatisiert FLAML die Modellauswahl und -optimierung mithilfe einer ressourcenfähigen Suchstrategie und gleicht Untersuchung und Ausnutzung aus, um die besten Modelle ohne Versuch und Irrtum zu identifizieren. Der adaptive Suchraum und einfache Algorithmen machen es ideal für große Datasets und eingeschränkte Umgebungen, wodurch eine skalierbare und schnelle Leistung gewährleistet wird. Diese Integration in Fabric macht maschinelles Lernen sowohl für technische als auch für nicht technische Benutzende zugänglich und beschleunigt den Weg von Rohdaten zu umsetzbaren Erkenntnissen.

Machine Learning-Aufgaben

Automatisiertes ML in Fabric unterstützt eine breite Palette von Aufgaben des maschinellen Lernens, einschließlich Klassifizierung, Regression und Vorhersagen, wodurch sie für verschiedene datengesteuerte Anwendungen vielseitig ist.

Binäre Klassifizierung

Die Binärklassifizierung ist eine Art überwachte Aufgabe des maschinellen Lernens, bei der das Ziel besteht, Datenpunkte in einen von zwei verschiedenen Klassen zu kategorisieren. Es umfasst das Trainieren eines Modells für beschriftete Daten, wobei jede Instanz einer von zwei möglichen Kategorien zugewiesen ist, und das Modell lernt, die richtige Klasse für neue, nicht angezeigte Daten vorherzusagen. Beispiele:

Spamerkennung: Klassifizieren von E-Mails als Spam oder nicht als Spam.
Betrugserkennung: Kennzeichnen von Finanztransaktionen als betrügerisch oder rechtmäßig.
Krankheitsscreening: Vorhersagen, ob Patient*innen eine Erkrankung haben (positiv) oder nicht (negativ).

Klassifizierung mit mehreren Klassen

Die Mehrklassenklassifizierung für tabellarische Daten umfasst das Zuweisen einer von mehreren möglichen Bezeichnungen zu jeder Zeile mit strukturierten Daten basierend auf den Features in diesem Dataset. Im Folgenden sind einige Beispiele aufgeführt, die für tabellarische Datasets unter Realbedingungen relevant sind:

Kundschaftssegmentierung: Klassifizieren von Kund*innen in Segmente wie „Hoher Wert“, „Moderater Wert“ oder „Geringer Wert“ basierend auf demografischen Daten sowie Kauf- und Verhaltensdaten.
Kreditrisikobewertung: Vorhersagen der Risikostufe eines Kreditantrags als „Gering“, „Mittel“ oder „Hoch“ unter Verwendung von Daten der Bewerber*innen wie Einkommen, Kreditwürdigkeit und Beschäftigungsstatus.
Produktkategorievorhersage: Zuweisen einer geeigneten Produktkategorie wie „Elektronik“, „Kleidung“ oder „Möbel“ basierend auf Attributen wie Preis, Marke und Produktspezifikationen.
Krankheitsdiagnose: Identifizieren der Art der Erkrankung, die Patient*innen haben könnten wie „Diabetes Typ 1“, „Diabetes Typ 2“ oder „Schwangerschaftsdiabetes“ basierend auf klinischen Metriken und Testergebnissen.

In diesen Beispielen wird hervorgehoben, wie die Mehrklassenklassifizierung Entscheidungsfindung in verschiedenen Branchen unterstützen kann, wobei das Ergebnis eine von mehreren sich gegenseitig ausschließenden Kategorien annehmen kann.

Regression

Regression ist eine Art von maschinellem Lernen, die verwendet wird, um eine Zahl basierend auf anderen verwandten Daten vorherzusagen. Sie ist hilfreich, wenn ein bestimmten Wert geschätzt werden soll, z. B. ein Preis, eine Temperatur oder eine Zeit, basierend auf verschiedenen Faktoren, die ihn beeinflussen könnten. Hier finden Sie einige Beispielszenarien:

Vorhersagen von Immobilienpreisen mithilfe von Informationen wie Quadratmeterzahl, Anzahl von Räumen und Standort.
Geschätzte monatliche Umsätze basierend auf Marketingausgaben, Saisonalität und vergangenen Verkaufstrends.

Vorhersagen

Vorhersagen sind eine Technik des maschinellen Lernens, die verwendet wird, um zukünftige Werte basierend auf historischen Daten vorherzusagen. Sie ist besonders nützlich für die Planung und Entscheidungsfindung in Situationen, in denen vergangene Trends und Muster darüber informieren können, was als Nächstes wahrscheinlich passiert. Vorhersagen erfordern zeitbasierte Daten, auch als Zeitreihendaten bezeichnet, und analysieren Muster wie Saisonalität, Trends und Zyklen, um genaue Vorhersagen zu erzielen. Hier finden Sie einige Beispielszenarien:

Umsatzvorhersagen: Vorhersagen zukünftiger Verkaufszahlen basierend auf den vergangenen Umsätzen, Saisonalität und Markttrends.
Bestandsprognose: Bestimmen der zukünftigen Nachfrage nach Produkten mithilfe früherer Einkaufsdaten und saisonaler Zyklen.

Vorhersagen helfen Organisationen dabei, fundierte Entscheidungen zu treffen,unabhängig davon, ob es um das Sicherstellen von genügend Bestand, Planungsressourcen oder Vorbereitungen für Marktänderungen geht.

Trainings- und Testdatasets

Das Erstellen von Trainings- und Testdatasets ist ein wesentlicher Schritt beim Erstellen von Modellen maschinellen Lernens. Das Trainingsdataset wird verwendet, um das Modell trainieren, sodass es Muster aus beschrifteten Daten lernen kann. Das Testdatenset wertet die Leistung des Modells für neue, nicht angezeigte Daten aus und hilft dabei, seine Genauigkeit und Generalisierbarkeit zu überprüfen. Durch die Trennung von Daten auf diese Weise wird sichergestellt, dass das Modell sich nicht einfach Daten merkt, sondern auf andere Daten verallgemeinern kann.

In Fabric vereinfachen Tools des automatisierten MLs diesen Prozess, indem Daten automatisch in Trainings- und Testsets aufgeteilt und die Aufteilung basierend auf bewährten Methoden für die jeweilige Aufgabe angepasst wird, z. B. Klassifizierung, Regression oder Vorhersagen.

Feature Engineering

Feature Engineering ist der Prozess der Transformation von Rohdaten in aussagekräftige Features, die die Leistung eines Modells des maschinellen Lernens verbessern. Es ist ein wichtiger Schritt, da die richtigen Features dem Modell helfen, die wichtigen Muster und Beziehungen in den Daten zu erlernen, was zu besseren Vorhersagen führt. Beispielsweise kann das Erstellen von Features wie „ist Feiertag“ in einem Dataset von Datumsangaben Trends deutlich machen, die Vorhersagemodelle verbessern.

In Fabric können Benutzende die Funktionalität auto_featurize nutzen, um Teile dieses Prozesses zu automatisieren. auto_featurize analysiert die Daten und schlägt relevante Features vor, z B. Aggregationen, kategorisierte Codierungen oder Transformationen, die die Vorhersagekraft des Modells verbessern können. Diese Funktionalität spart Zeit und bringt für Benutzende mit unterschiedlicher Erfahrung Feature Engineering näher sowie ermöglicht es ihnen, präzisere und robustere Modelle zu erstellen.