Zautomatyzowane uczenie maszynowe w sieci szkieletowej (wersja zapoznawcza)
Zautomatyzowane uczenie maszynowe (AutoML) umożliwia użytkownikom tworzenie i wdrażanie modeli uczenia maszynowego przez automatyzację najbardziej czasochłonnych i złożonych części procesu tworzenia modelu. Tradycyjnie tworzenie modelu uczenia maszynowego wymaga wiedzy na temat nauki o danych, wyboru modelu, dostrajania hiperparametrów i oceny — procesu, który może być intensywnie obciążający zasoby i podatny na próby i błędy. Rozwiązanie AutoML upraszcza to przez automatyczne wybieranie najlepszych algorytmów, dostrajanie hiperparametrów i generowanie zoptymalizowanych modeli na podstawie danych wejściowych i pożądanych wyników.
W usłudze Microsoft Fabric rozwiązanie AutoML staje się jeszcze bardziej zaawansowane dzięki bezproblemowej integracji z ekosystemem danych platformy, dzięki czemu użytkownicy mogą tworzyć, trenować i wdrażać modele bezpośrednio w swoich magazynach lakehouse. Dzięki funkcji Automatycznego uczenia maszynowego użytkownicy techniczni i nietechniczni mogą szybko tworzyć modele predykcyjne, dzięki czemu uczenie maszynowe jest dostępne dla szerszej grupy odbiorców. Od prognozowania zapotrzebowania na wykrywanie anomalii i optymalizowanie operacji biznesowych rozwiązanie AutoML w sieci szkieletowej przyspiesza ścieżkę od nieprzetworzonych danych po szczegółowe informacje umożliwiające podejmowanie działań, umożliwiając użytkownikom korzystanie ze sztucznej inteligencji przy minimalnym wysiłku i maksymalnym wpływie.
Ważne
Ta funkcja jest dostępna w wersji zapoznawczej.
Jak działa rozwiązanie AutoML?
Funkcja FLAML (szybka i uproszczona funkcja AutoML) zapewnia możliwości automatycznego uczenia maszynowego w sieci szkieletowej, umożliwiając użytkownikom bezproblemowe tworzenie, optymalizowanie i wdrażanie modeli uczenia maszynowego w ekosystemie danych platformy.
FLAML to biblioteka automatycznego uczenia maszynowego typu open source przeznaczona do szybkiego dostarczania dokładnych modeli, koncentrując się na wydajności, minimalizując koszty obliczeniowe i dynamicznie dostrajając hiperparametry. W tle flaML automatyzuje wybór i optymalizację modelu przy użyciu strategii wyszukiwania obsługującej zasoby, równoważenia eksploracji i eksploatacji w celu zidentyfikowania najlepszych modeli bez wyczerpującej wersji próbnej i błędu. Jego adaptacyjna przestrzeń wyszukiwania i lekkie algorytmy sprawiają, że idealnie nadaje się do dużych zestawów danych i ograniczonych środowisk, zapewniając skalowalną i szybką wydajność. Ta integracja z usługą Fabric sprawia, że uczenie maszynowe jest dostępne zarówno dla użytkowników technicznych, jak i nietechnicznych, przyspieszając ścieżkę od danych pierwotnych do praktycznych szczegółowych informacji.
Zadania uczenia maszynowego
Rozwiązanie AutoML w sieci szkieletowej obsługuje szeroką gamę zadań uczenia maszynowego, w tym klasyfikacji, regresji i prognozowania, dzięki czemu jest wszechstronny dla różnych aplikacji opartych na danych.
Klasyfikacja binarna
Klasyfikacja binarna to typ nadzorowanego zadania uczenia maszynowego, w którym celem jest kategoryzowanie punktów danych w jednej z dwóch odrębnych klas. Obejmuje to trenowanie modelu na danych oznaczonych etykietami, gdzie każde wystąpienie jest przypisywane do jednej z dwóch możliwych kategorii, a model uczy się przewidywać poprawną klasę dla nowych, niezaświetnionych danych. Oto kilka przykładów:
- Wykrywanie spamu: klasyfikowanie wiadomości e-mail jako spamu lub nie spamu.
- Wykrywanie oszustw: flagowanie transakcji finansowych jako fałszywych lub uzasadnionych.
- Badania przesiewowe chorób: przewidywanie, czy pacjent ma stan (pozytywny), czy nie (ujemny).
Klasyfikacja wieloklasowa
Klasyfikacja wieloklasowa dla danych tabelarycznych obejmuje przypisanie jednej z kilku możliwych etykiet do każdego wiersza danych ustrukturyzowanych na podstawie funkcji w tym zestawie danych. Oto kilka przykładów istotnych dla rzeczywistych zestawów danych tabelarycznych:
- Segmentacja klientów: klasyfikowanie klientów w segmenty, takie jak "Wysoka wartość", "Umiarkowana wartość" lub "Niska wartość" na podstawie danych demograficznych, zakupów i zachowań.
- Ocena ryzyka kredytowego: przewidywanie poziomu ryzyka wniosku o pożyczkę jako "Niski", "Średni" lub "Wysoki" przy użyciu danych wnioskodawcy, takich jak dochód, ocena kredytowa i status zatrudnienia.
- Przewidywanie kategorii produktów: przypisywanie odpowiedniej kategorii produktów, takiej jak "Elektronika", "Odzież" lub "Meble", na podstawie atrybutów, takich jak cena, marka i specyfikacje produktów.
- Diagnostyka choroby: Identyfikowanie typu choroby, które pacjent może mieć, na przykład "Cukrzyca typu 1", "Cukrzyca typu 2" lub "Cukrzyca ciążowa", na podstawie metryk klinicznych i wyników testów.
W tych przykładach opisano, jak klasyfikacja wieloklasowa może wspierać podejmowanie decyzji w różnych branżach, gdzie wynik może przyjąć jedną z kilku wzajemnie wykluczających się kategorii.
Regresja
Regresja to typ uczenia maszynowego używany do przewidywania liczby na podstawie innych powiązanych danych. Warto oszacować określoną wartość, na przykład cenę, temperaturę lub czas, na podstawie różnych czynników, które mogą mieć na nie wpływ. Oto kilka przykładowych scenariuszy:
- Przewidywanie cen domów przy użyciu informacji, takich jak nagrania kwadratowe, liczba pokoi i lokalizacja.
- Szacowanie miesięcznej sprzedaży na podstawie wydatków marketingowych, sezonowości i wcześniejszych trendów sprzedaży.
Prognozowanie
Prognozowanie to technika uczenia maszynowego używana do przewidywania przyszłych wartości na podstawie danych historycznych. Jest to szczególnie przydatne w przypadku planowania i podejmowania decyzji w sytuacjach, w których wcześniejsze trendy i wzorce mogą poinformować, co może się zdarzyć dalej. Prognozowanie wymaga danych opartych na czasie — nazywanych również danymi szeregów czasowych — i analizuje wzorce, takie jak sezonowość, trendy i cykle, aby uzyskać dokładne przewidywania. Oto kilka przykładowych scenariuszy:
- Prognozowanie sprzedaży: przewidywanie przyszłych danych sprzedaży na podstawie wcześniejszych trendów sprzedaży, sezonowości i rynku.
- Prognozowanie zapasów: określanie przyszłego zapotrzebowania na produkty przy użyciu poprzednich danych zakupów i cykli sezonowych.
Prognozowanie pomaga organizacjom podejmować świadome decyzje, niezależnie od tego, czy zapewnia wystarczającą ilość akcji, planowanie zasobów, czy przygotowanie do zmian na rynku.
Trenowanie i testowanie zestawów danych
Tworzenie zestawów danych szkoleniowych i testowych jest niezbędnym krokiem w tworzeniu modeli uczenia maszynowego. Zestaw danych trenowania służy do uczenia modelu, co pozwala mu uczyć się wzorców na podstawie danych oznaczonych etykietami, podczas gdy testowy zestaw danych ocenia wydajność modelu na nowych, niezaużytowanych danych, pomagając sprawdzić jego dokładność i uogólnienie. Dzielenie danych w ten sposób gwarantuje, że model nie jest po prostu zapamiętytywany, ale może uogólniać inne dane.
W sieci szkieletowej narzędzia automatycznego uczenia maszynowego upraszczają ten proces, automatycznie dzieląc dane na zestawy treningowe i testowe, dostosowując podział na podstawie najlepszych rozwiązań dotyczących określonego zadania, takich jak klasyfikacja, regresja lub prognozowanie.
Inżynieria cech
Inżynieria cech to proces przekształcania danych pierwotnych w znaczące funkcje, które zwiększają wydajność modelu uczenia maszynowego. Jest to krytyczny krok, ponieważ odpowiednie funkcje pomagają modelowi nauczyć się ważnych wzorców i relacji w danych, co prowadzi do lepszych przewidywań. Na przykład w zestawie danych dat tworzenie funkcji, takich jak "is holiday", może ujawniać trendy poprawiające modele prognozowania.
W sieci szkieletowej użytkownicy mogą korzystać z auto_featurize
funkcji automatyzowania części tego procesu.
auto_featurize
analizuje dane i sugeruje lub generuje odpowiednie funkcje, takie jak agregacje, kodowanie kategorii lub przekształcenia, które mogą zwiększyć moc predykcyjną modelu. Ta funkcja pozwala zaoszczędzić czas i zapewnić użytkownikom różne poziomy doświadczenia w zakresie inżynierii funkcji, umożliwiając im tworzenie bardziej dokładnych i niezawodnych modeli.