Co to jest zautomatyzowane uczenie maszynowe (AutoML)?

2025-04-08

DOTYCZY: Python SDK azure-ai-ml w wersji 2 (bieżąca)

Zautomatyzowane uczenie maszynowe, nazywane również zautomatyzowanym uczeniem maszynowym lub rozwiązaniem AutoML, to proces automatyzowania czasochłonnych, iteracyjnych zadań tworzenia modelu uczenia maszynowego. Umożliwia ona analitykom danych, analitykom i deweloperom tworzenie modeli uczenia maszynowego o wysokiej skali, wydajności i produktywności przy jednoczesnym utrzymaniu jakości modelu. Zautomatyzowane uczenie maszynowe w usłudze Azure Machine Learning opiera się na przełomie z działu Microsoft Research.

W przypadku klientów korzystających z kodu zainstaluj zestaw SDK języka Python usługi Azure Machine Learning. Rozpocznij od samouczka: trenowanie modelu wykrywania obiektów (wersja zapoznawcza) z AutoML i Pythonem.

Jak działa rozwiązanie AutoML?

Podczas trenowania usługa Azure Machine Learning tworzy wiele potoków równolegle, które wypróbowują różne algorytmy i parametry. Usługa iteruje za pomocą algorytmów uczenia maszynowego sparowanych z wyborami funkcji, gdzie każda iteracja generuje model z wynikiem trenowania. Im lepsze wyniki metryki, którą chcesz zoptymalizować, tym lepiej model jest uważany za 'dopasowany' do danych. Zatrzymuje się po osiągnięciu kryteriów zakończenia zdefiniowanych w eksperymencie.

Korzystając z usługi Azure Machine Learning, możesz zaprojektować i uruchomić eksperymenty zautomatyzowanego trenowania uczenia maszynowego, wykonując następujące kroki:

Zidentyfikuj problem uczenia maszynowego, który ma zostać rozwiązany: klasyfikacja, prognozowanie, regresja, przetwarzanie obrazów lub nlp.
Wybierz, czy chcesz korzystać z środowiska internetowego code-first, czy środowiska internetowego bez programu Code Studio: użytkownicy, którzy wolą środowisko oparte na kodzie, mogą korzystać z zestawu SDKKv2 usługi Azure Machine Learning lub środowiska CLIv2 usługi Azure Machine Learning. Wprowadzenie do samouczka: trenowanie modelu wykrywania obiektów za pomocą rozwiązania AutoML i języka Python. Użytkownicy, którzy preferują ograniczone środowisko lub środowisko bez kodu, mogą używać interfejsu internetowego w usłudze Azure Machine Learning Studio pod adresem https://ml.azure.com. Wprowadzenie do samouczka: tworzenie modelu klasyfikacji za pomocą zautomatyzowanego uczenia maszynowego w usłudze Azure Machine Learning.
Określ źródło oznaczonych danych treningowych: możesz przenieść dane do usługi Azure Machine Learning na wiele różnych sposobów.
Skonfiguruj parametry zautomatyzowanego uczenia maszynowego, które określają, ile iteracji w różnych modelach, ustawienia hiperparametrów, zaawansowane przetwarzanie wstępne/cechowanie oraz jakie metryki mają być sprawdzane podczas określania najlepszego modelu.
Prześlij zadanie szkoleniowe.
Przejrzyj wyniki.

Na poniższym diagramie przedstawiono ten proces. Zautomatyzowane uczenie maszynowe

Możesz również sprawdzić zarejestrowane informacje o zadaniu, które zawierają metryki zebrane podczas zadania. Proces trenowania generuje zserializowany obiekt Pythona (plik .pkl), który zawiera model oraz przetwarzanie wstępne danych.

Podczas tworzenia modeli można również dowiedzieć się, jak ważne lub istotne są cechy dla wygenerowanych modeli.

Kiedy używać rozwiązania AutoML: klasyfikacja, regresja, prognozowanie, przetwarzanie obrazów i nlP

Zastosuj zautomatyzowane uczenie maszynowe, gdy chcesz, aby usługa Azure Machine Learning trenowała i dostrajała model przy użyciu określonej metryki docelowej. Zautomatyzowane uczenie maszynowe demokratyzuje proces opracowywania modelu uczenia maszynowego i umożliwia użytkownikom, bez względu na ich wiedzę na temat nauki o danych, zidentyfikowanie kompleksowego potoku uczenia maszynowego dla dowolnego problemu.

Specjaliści ds. uczenia maszynowego i deweloperzy w różnych branżach mogą używać zautomatyzowanego uczenia maszynowego do:

Implementowanie rozwiązań uczenia maszynowego bez obszernej wiedzy programistycznej
Oszczędzaj czas i zasoby
Stosowanie najlepszych rozwiązań dotyczących nauki o danych
Zapewnianie elastycznego rozwiązywania problemów

Klasyfikacja

Klasyfikacja to typ uczenia nadzorowanego, w którym modele uczą się korzystać z danych szkoleniowych i stosują te informacje do nowych danych. Usługa Azure Machine Learning oferuje funkcje doboru cech przeznaczone specjalnie dla tych zadań, takie jak funkcje doboru cech tekstu głębokiej sieci neuronowej na potrzeby klasyfikacji. Aby uzyskać więcej informacji na temat opcji cechowania, zobacz Cechowanie danych. Listę algorytmów obsługiwanych przez rozwiązanie AutoML można również znaleźć w sekcji Obsługiwane algorytmy.

Głównym celem modeli klasyfikacji jest przewidywanie kategorii nowych danych w oparciu o informacje na podstawie danych treningowych. Typowe przykłady klasyfikacji obejmują wykrywanie oszustw, rozpoznawanie pisma ręcznego i wykrywanie obiektów.

Zobacz przykład klasyfikacji i zautomatyzowanego uczenia maszynowego w tym notesie języka Python: Marketing bankowy.

Regresja

Podobnie jak w przypadku klasyfikacji, zadania regresji są również typowym zadaniem uczenia nadzorowanego. Usługa Azure Machine Learning oferuje cechowanie specyficzne dla problemów regresji. Dowiedz się więcej o opcjach cechowania. Listę algorytmów obsługiwanych przez rozwiązanie AutoML można również znaleźć w sekcji Obsługiwane algorytmy.

Różni się od klasyfikacji, w której przewidywane wartości wyjściowe są podzielone na kategorie, modele regresji przewidują wartości liczbowe danych wyjściowych na podstawie niezależnych predyktorów. W regresji celem jest pomoc w ustanowieniu relacji między zmiennymi tych niezależnych predyktorów przez oszacowanie wpływu jednej zmiennej na inne. Na przykład model może przewidywać cenę samochodów na podstawie cech, takich jak przebieg gazu i ocena bezpieczeństwa.

Zobacz przykład regresji i zautomatyzowanego uczenia maszynowego, aby uzyskać przewidywania w tych notesach języka Python: Wydajność sprzętu.

Prognozowanie szeregów czasowych

Tworzenie prognoz jest integralną częścią każdej firmy, niezależnie od tego, czy dotyczy to przychodu, zapasów, sprzedaży czy zapotrzebowania klientów. Za pomocą zautomatyzowanego uczenia maszynowego możesz połączyć techniki oraz podejścia i uzyskać zalecaną prognozę szeregów czasowych o wysokiej jakości. Listę algorytmów obsługiwanych przez rozwiązanie AutoML można znaleźć w sekcji Obsługiwane algorytmy.

Zautomatyzowany eksperyment szeregów czasowych jest traktowany jako problem regresji wielowariancji. Wcześniejsze wartości szeregów czasowych są "przekształcane", aby stać się dodatkowymi wymiarami dla regresora wraz z innymi predyktorami. Takie podejście, w przeciwieństwie do klasycznych metod szeregów czasowych, ma zaletę naturalnie dołączania wielu zmiennych kontekstowych i ich relacji ze sobą podczas trenowania. Zautomatyzowane uczenie maszynowe uczy się jednego, ale często wewnętrznie rozgałęzianego modelu dla wszystkich elementów w zestawie danych i horyzontach przewidywania. W związku z tym do szacowania parametrów modelu jest dostępnych więcej danych, co umożliwia uogólnienie na nieobserwowane serie.

Zaawansowana konfiguracja prognozowania obejmuje:

Wykrywanie świąt i tworzenie cech
Szeregi czasowe i modele uczące się sieci neuronowych (Auto-ARIMA, Prophet, ForecastTCN)
Wiele modeli obsługuje grupowanie
Krzyżowa walidacja przesuwającego się pochodzenia
Konfigurowalne opóźnienia
Zagregowane cechy kroczącego okna

Zobacz przykład prognozowania i zautomatyzowanego uczenia maszynowego w tym notesie języka Python: Zapotrzebowanie na energię.

Przetwarzanie obrazów

Obsługa zadań przetwarzania obrazów umożliwia łatwe generowanie modeli wytrenowanych na danych obrazu w scenariuszach, takich jak klasyfikacja obrazów i wykrywanie obiektów.

Dzięki tej możliwości można wykonywać następujące czynności:

Bezproblemowa integracja z funkcją etykietowania danych usługi Azure Machine Learning.
Użyj danych oznaczonych etykietami do generowania modeli obrazów.
Zoptymalizuj wydajność modelu, określając algorytm modelu i dostrajając hiperparametry.
Pobierz lub wdróż wynikowy model jako usługę internetową w usłudze Azure Machine Learning.
Operacjonalizacja na dużą skalę, korzystając z możliwości usługi Azure Machine Learning MLOps i potoków uczenia maszynowego.

Tworzenie modeli automatycznego uczenia maszynowego na potrzeby zadań przetwarzania obrazów jest obsługiwane za pośrednictwem zestawu SDK języka Python usługi Azure Machine Learning. Dostęp do wynikowych zadań eksperymentowania, modeli i danych wyjściowych można uzyskać za pomocą interfejsu użytkownika usługi Azure Machine Learning Studio.

Dowiedz się, jak skonfigurować trenowanie automatycznego uczenia maszynowego dla modeli przetwarzania obrazów.

Przykłady zadań przetwarzania obrazów. Obraz z: http://cs231n.stanford.edu/slides/2021/lecture_15.pdf Obraz z: http://cs231n.stanford.edu/slides/2021/lecture_15.pdf

Zautomatyzowane uczenie maszynowe dla obrazów obsługuje następujące zadania przetwarzania obrazów:

Zadanie	Opis
Klasyfikacja obrazów z użyciem wielu klas	Zadania, w których obraz jest klasyfikowany przy użyciu jednej etykiety z zestawu klas — na przykład każdy obraz jest klasyfikowany jako "kot", "pies" lub "kaczka".
Klasyfikacja obrazów z użyciem wielu etykiet	Zadania, w których obraz może zawierać co najmniej jedną etykietę z zestawu etykiet — na przykład obraz może być oznaczony etykietą "kot" i "pies".
Wykrywanie obiektów	Zadania polegające na identyfikowaniu obiektów na obrazie i lokalizowaniu każdego z nich za pomocą obramowania, na przykład, lokalizowanie wszystkich psów i kotów na obrazie i rysowanie ramki wokół każdego.
Segmentacja wystąpień	Zadania do identyfikowania obiektów na obrazie na poziomie pikseli i rysowania wielokąta wokół każdego obiektu na obrazie.

Przetwarzanie języka naturalnego: NLP

Obsługa zadań przetwarzania języka naturalnego (NLP) w zautomatyzowanym uczeniu maszynowym umożliwia łatwe generowanie modeli wytrenowanych na danych tekstowych na potrzeby klasyfikacji tekstu i scenariuszy rozpoznawania jednostek nazwanych. Tworzenie wytrenowanych modeli NLP zautomatyzowanego uczenia maszynowego jest obsługiwane za pośrednictwem zestawu SDK języka Python usługi Azure Machine Learning. Dostęp do wynikowych zadań eksperymentowania, modeli i danych wyjściowych można uzyskać za pomocą interfejsu użytkownika usługi Azure Machine Learning Studio.

Funkcja NLP obsługuje następujące funkcje:

Kompleksowe, end-to-end trenowanie głębokiej sieci neuronowej NLP przy użyciu najnowszych, przetrenowanych modeli BERT
Bezproblemowa integracja z etykietowaniem danych usługi Azure Machine Learning
Używanie danych oznaczonych etykietami do generowania modeli NLP
Obsługa wielu języków językowych w 104 językach
Uczenie rozproszone przy użyciu Horovod

Dowiedz się, jak skonfigurować szkolenie automatycznego uczenia maszynowego dla modeli NLP.

Trenowanie, walidacja i testowanie danych

W przypadku zautomatyzowanego uczenia maszynowego udostępniasz dane szkoleniowe do trenowania modeli uczenia maszynowego i możesz określić typ weryfikacji modelu do wykonania. Zautomatyzowane uczenie maszynowe przeprowadza walidację modelu w ramach trenowania. Oznacza to, że zautomatyzowane uczenie maszynowe używa danych walidacji do dostrajania hiperparametrów modelu na podstawie zastosowanego algorytmu w celu znalezienia kombinacji, która najlepiej pasuje do danych treningowych. Jednak te same dane weryfikacji są używane dla każdej iteracji dostrajania, która wprowadza stronniczość oceny modelu, ponieważ model nadal ulepsza dane weryfikacji i pasuje do nich.

Aby potwierdzić, że takie stronniczość nie jest stosowana do ostatecznego zalecanego modelu, zautomatyzowane uczenie maszynowe obsługuje korzystanie z danych testowych w celu oceny końcowego modelu zalecanego przez zautomatyzowane uczenie maszynowe na końcu eksperymentu. Po podaniu danych testowych w ramach konfiguracji eksperymentu rozwiązania AutoML ten zalecany model jest domyślnie testowany na końcu eksperymentu (wersja zapoznawcza).

Ważne

Testowanie modeli przy użyciu zestawu danych testowych w celu oceny wygenerowanych modeli jest funkcją w wersji zapoznawczej. Ta funkcja jest funkcją eksperymentalnej wersji zapoznawczej i może ulec zmianie w dowolnym momencie.

Dowiedz się, jak skonfigurować eksperymenty rozwiązania AutoML do korzystania z danych testowych (wersja zapoznawcza) za pomocą zestawu SDK lub usługi Azure Machine Learning Studio.

Inżynieria atrybutów

Inżynieria cech to proces używania wiedzy o domenie danych w celu tworzenia funkcji, które ułatwiają algorytmom uczenia maszynowego lepsze uczenie się. W usłudze Azure Machine Learning stosowane są techniki skalowania i normalizacji w celu ułatwienia inżynierii cech. Łącznie te techniki i inżynieria cech są określane jako cechowanie.

W przypadku eksperymentów zautomatyzowanego uczenia maszynowego cechowanie jest stosowane automatycznie, ale można je również dostosować na podstawie danych. Dowiedz się więcej o tym, jakie cechowanie jest zawarte (zestaw SDK w wersji 1) i jak rozwiązanie AutoML pomaga zapobiegać nadmiernemu dopasowywaniu i niezrównoważonym danym w modelach.

Uwaga

Zautomatyzowane kroki cechowania uczenia maszynowego (na przykład normalizacja cech, obsługa brakujących danych i konwertowanie tekstu na liczbowe) stają się częścią modelu bazowego. Podczas korzystania z modelu do przewidywania te same kroki cechowania, które były stosowane podczas trenowania, są automatycznie stosowane do danych wejściowych.

Dostosowywanie cechowania

Dostępne są również dodatkowe techniki inżynierii cech, takie jak kodowanie i transformacje.

Włącz to ustawienie za pomocą:

Azure Machine Learning Studio: Włącz automatyczne cechowanie w sekcji Wyświetl dodatkową konfiguracjęstosując się do tych kroków.
Pakiet SDK Python: określ featuryzację w obiekcie AutoML Job. Dowiedz się więcej na temat włączania featuryzacji.

Modele grupowe

Zautomatyzowane uczenie maszynowe obsługuje modele grupowe, które są domyślnie włączone. Uczenie zespołowe poprawia wyniki uczenia maszynowego i wydajność predykcyjną, łącząc wiele modeli, a nie przy użyciu pojedynczych modeli. Iteracji zespołu są wyświetlane jako ostatnie iteracji zadania. Zautomatyzowane uczenie maszynowe używa metod głosowania i stosu zespołów do łączenia modeli:

Głosowanie: przewiduje na podstawie ważonej średniej przewidywanych prawdopodobieństwa klas (dla zadań klasyfikacji) lub przewidywanych celów regresji (dla zadań regresji).
Stacking: Polega na łączeniu modeli heterogenicznych i trenowaniu metamodelu na podstawie danych wyjściowych poszczególnych modeli. Bieżące domyślne meta-modele to LogisticsRegression dla zadań klasyfikacji i ElasticNet na potrzeby zadań regresji/prognozowania.

Algorytm wyboru zespołu Caruana z posortowaną inicjacją zespołu służy do decydowania, które modele mają być używane w ramach zespołu. Na wysokim poziomie ten algorytm inicjuje zespół z maksymalnie pięcioma modelami z najlepszymi wynikami i sprawdza, czy te modele znajdują się w granicach 5% progu najlepszego wyniku, aby uniknąć słabego początkowego zespołu. Następnie, dla każdej iteracji ensemblu, nowy model jest dodawany do istniejącego ensemblu, a wynik jest obliczany. Jeśli nowy model poprawił istniejący wynik modelu zespołowego, model zespołowy zostanie zaktualizowany w celu uwzględnienia nowego modelu.

Zobacz pakiet AutoML, aby zmienić domyślne ustawienia zespołu w zautomatyzowanym uczeniu maszynowym.

AutoML i ONNX

Za pomocą usługi Azure Machine Learning możesz użyć zautomatyzowanego uczenia maszynowego do utworzenia modelu języka Python i przekonwertowania go na format ONNX. Gdy modele są w formacie ONNX, mogą być uruchamiane na różnych platformach i urządzeniach. Dowiedz się więcej o przyspieszaniu modeli uczenia maszynowego za pomocą platformy ONNX.

Zobacz, jak przekonwertować na format ONNX na przykładzie tego notatnika Jupyter. Dowiedz się, które algorytmy są obsługiwane w środowisku ONNX.

Środowisko uruchomieniowe ONNX obsługuje również język C#, dzięki czemu można używać modelu zbudowanego automatycznie w aplikacjach języka C# bez konieczności ponownego kodowania ani opóźnień sieciowych, które wprowadzane są przez punkty końcowe REST. Dowiedz się więcej na temat używania modelu ONNX rozwiązania AutoML w aplikacji .NET z ML.NET oraz wnioskowania modeli ONNX przy użyciu interfejsu API C# środowiska uruchomieniowego ONNX.

Następne kroki

Istnieje wiele zasobów, które umożliwiają rozpoczęcie pracy z rozwiązaniem AutoML.

Samouczki/ instrukcje

Samouczki to kompleksowe przykłady wprowadzających scenariuszy rozwiązania AutoML.

Aby doświadczyć kodu w pierwszej kolejności, postępuj zgodnie z Tutorialem: Trenowanie modelu wykrywania obiektów za pomocą AutoML i Pythona
Aby uzyskać informacje o niskim lub braku kodu, zobacz Samouczek: trenowanie modelu klasyfikacji bez uczenia maszynowego za pomocą rozwiązania AutoML bez kodu w usłudze Azure Machine Learning Studio.

Artykuły z instrukcjami zawierają bardziej szczegółowe informacje na temat funkcji zautomatyzowanych ofert uczenia maszynowego. Na przykład:

Konfigurowanie ustawień eksperymentów trenowania automatycznego
- Bez kodu w usłudze Azure Machine Learning Studio.
- Za pomocą zestawu SDK języka Python.
Dowiedz się, jak trenować modele przetwarzania obrazów przy użyciu języka Python.
Dowiedz się, jak wyświetlić wygenerowany kod na podstawie zautomatyzowanych modeli uczenia maszynowego (SDK w wersji 1).

Przykłady notesów Jupyter

Przejrzyj szczegółowe przykłady kodu i przypadki użycia w repozytorium notesów GitHub, aby zapoznać się z przykładami zautomatyzowanego uczenia maszynowego.

Dokumentacja zestawu Python SDK

Pogłębij wiedzę na temat wzorców projektowych i specyfikacji klas zestawu SDK, aby uzyskać dokumentację referencyjną klas rozwiązania AutoML.