Ocena modelu

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Zobacz informacje dotyczące przenoszenia projektów uczenia maszynowego z programu ML Studio (klasycznego) do Azure Machine Learning.
Dowiedz się więcej o Azure Machine Learning.

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

Ocenia wyniki modelu klasyfikacji lub regresji przy użyciu standardowych metryk

Kategoria: Machine Learning / Ocena

Uwaga

Dotyczy: tylko Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w projektancie Azure Machine Learning.

Omówienie modułu

W tym artykule opisano, jak używać modułu Evaluate Model (Ocena modelu) w programie Machine Learning Studio (klasycznym) do mierzenia dokładności wytrenowanego modelu. Udostępniasz zestaw danych zawierający wyniki wygenerowane na podstawie modelu, a moduł Evaluate Model oblicza zestaw standardowych metryk oceny w branży.

Metryki zwracane przez usługę Evaluate Model zależą od typu modelu, który oceniasz:

Modele klasyfikacji
Modele regresji
Modele klastrowania

W przypadku modeli rekomendacji użyj modułu Evaluate Recommender (Ocena modułu rekomendacji ).

Porada

Jeśli dopiero zaczynasz oceniać model, zalecamy użycie tych przykładów w galerii sztucznej inteligencji platformy Azure, która tworzy model, a następnie wyjaśnia, jak korzystać z powiązanych metryk:

Zalecamy również serię wideo dr Stephen Elston, w ramach kursu uczenia maszynowego z EdX.

Jak używać funkcji Evaluate Model

Istnieją trzy sposoby korzystania z modułu Evaluate Model (Ocena modelu ):

Generowanie wyników na podstawie danych treningowych i ocenianie modelu na podstawie tych wyników
Generowanie wyników w modelu, ale porównywanie tych wyników z wynikami w zestawie testów zarezerwowanych
Porównanie wyników dla dwóch różnych, ale powiązanych modeli przy użyciu tego samego zestawu danych

Korzystanie z danych treningowych

Aby ocenić model, należy połączyć zestaw danych zawierający zestaw kolumn wejściowych i wyników. Jeśli żadne inne dane nie są dostępne, możesz użyć oryginalnego zestawu danych.

Połączenie dane wyjściowe Scored datset elementu Score Model (Generowanie wyników dla modelu) do danych wejściowych elementu Evaluate Model (Ocena modelu).
Kliknij pozycję Oceń moduł Model i wybierz pozycję Uruchom, aby wygenerować wyniki oceny.

Korzystanie z danych testowych

Typowym scenariuszem w uczeniu maszynowym jest oddzielenie oryginalnego zestawu danych do zestawów danych szkoleniowych i testowych przy użyciu modułu Split (Podział) lub modułu Partition and Sample (Partycja i przykład).

Połączenie dane wyjściowe Scored dataset (Generowanie wyników dla modelu) do danych wejściowych elementu Evaluate Model (Ocena modelu).
Połączenie dane wyjściowe modułu Split Data (Podział danych), który zawiera dane testowe po prawej stronie danych wejściowych funkcji Evaluate Model (Ocena modelu).
Kliknij pozycję Oceń moduł Model i wybierz pozycję Uruchom, aby wygenerować wyniki oceny.

Porównanie wyników z dwóch modeli

Możesz również połączyć drugi zestaw wyników z wartością Evaluate Model( Ocena modelu). Wyniki mogą być udostępnionym zestawem oceny, który ma znane wyniki lub zestaw wyników z innego modelu dla tych samych danych.

Ta funkcja jest przydatna, ponieważ można łatwo porównać wyniki z dwóch różnych modeli na tych samych danych. Możesz też porównać wyniki z dwóch różnych przebiegów na tych samych danych z różnymi parametrami.

Połączenie dane wyjściowe Scored datset elementu Score Model (Generowanie wyników dla modelu) do danych wejściowych elementu Evaluate Model (Ocena modelu).
Połączenie dane wyjściowe modułu Score Model (Generowanie wyników dla modelu) dla drugiego modelu po prawej stronie danych wejściowych elementu Evaluate Model (Ocena modelu).
Kliknij prawym przyciskiem myszy pozycję Oceń model, a następnie wybierz pozycję Uruchom, aby wygenerować wyniki oceny.

Wyniki

Po uruchomieniu polecenia Evaluate Model (Ocena modelu) kliknij prawym przyciskiem myszy moduł i wybierz pozycję Wyniki oceny , aby wyświetlić wyniki. Oto co możesz zrobić:

Zapisywanie wyników jako zestawu danych w celu łatwiejszej analizy za pomocą innych narzędzi
Generowanie wizualizacji w interfejsie studio (klasycznym)

Jeśli połączysz zestawy danych z obydwoma danymi wejściowymi elementu Evaluate Model, wyniki będą zawierać metryki dla obu zestawów danych lub obu modeli. Model lub dane dołączone do lewego portu są prezentowane najpierw w raporcie, a następnie metryki dla zestawu danych lub modelu dołączonego do odpowiedniego portu.

Na przykład na poniższej ilustracji przedstawiono porównanie wyników z dwóch modeli klastrowania, które zostały utworzone na tych samych danych, ale z różnymi parametrami.

AML_Comparing2Models

Ponieważ jest to model klastrowania, wyniki oceny są inne niż w przypadku porównywania wyników z dwóch modeli regresji lub porównania dwóch modeli klasyfikacji. Jednak ogólna prezentacja jest taka sama.

Metryki

W tej sekcji opisano metryki zwracane dla określonych typów modeli obsługiwanych do użycia z usługą Evaluate Model:

modele klasyfikacji
modele regresji
modele klastrowania

Metryki dla modeli klasyfikacji

Podczas oceniania modeli klasyfikacji są zgłaszane następujące metryki. W przypadku porównywania modeli są one klasyfikowane według metryki wybranej do oceny.

Dokładność mierzy dobro modelu klasyfikacji jako proporcję rzeczywistych wyników do łącznej liczby przypadków.
Precyzja to proporcja rzeczywistych wyników dla wszystkich dodatnich wyników.
Kompletność to ułamek wszystkich prawidłowych wyników zwracanych przez model.
Wynik F jest obliczany jako średnia ważona dokładności i kompletność z zakresu od 0 do 1, gdzie idealna wartość wyniku F wynosi 1.
Funkcja AUC mierzy obszar pod krzywą wykreślowaną z prawdziwie dodatnimi na osi y i fałszywie dodatnimi na osi x. Ta metryka jest przydatna, ponieważ zapewnia pojedynczą liczbę, która umożliwia porównywanie modeli różnych typów.
Średnia utrata dziennika to pojedynczy wynik używany do wyrażenia kary za nieprawidłowe wyniki. Jest obliczana jako różnica między dwoma rozkładami prawdopodobieństwa — prawdziwym i jednym w modelu.
Utrata dziennika trenowania to pojedynczy wynik, który reprezentuje przewagę klasyfikatora w przypadku przewidywania losowego. Utrata dziennika mierzy niepewność modelu przez porównanie prawdopodobieństwa, które generuje do znanych wartości (prawdy podstawowej) w etykietach. Chcesz zminimalizować utratę dziennika dla modelu jako całości.

Metryki dla modeli regresji

Metryki zwracane dla modeli regresji są zwykle zaprojektowane w celu oszacowania ilości błędu. Model jest uważany za dopasowany do źródła danych, jeśli różnica między obserwowanych i przewidywanych wartości jest mała. Jednak patrząc na wzorzec reszt (różnica między dowolnym przewidywanym punktem a odpowiadającą jej rzeczywistą wartością) może powiedzieć wiele o potencjalnych stronniczości w modelu.

Następujące metryki są zgłaszane do oceny modeli regresji. Podczas porównywania modeli są one klasyfikowane według metryki wybranej do oceny.

Ujemne prawdopodobieństwo dziennika mierzy funkcję utraty, niższy wynik jest lepszy. Należy pamiętać, że ta metryka jest obliczana tylko dla regresji liniowej bayesowskiej i regresji lasu decyzyjnego; w przypadku innych algorytmów wartość jest Infinity oznaczana dla niczego.
Średni błąd bezwzględny (MAE) mierzy, jak blisko przewidywania są rzeczywiste wyniki; w związku z tym niższy wynik jest lepszy.
Błąd średniokwadratowy (RMSE) tworzy pojedynczą wartość, która podsumowuje błąd w modelu. Dzięki squaring różnicy metryka pomija różnicę między nadmiernym przewidywaniem a niedo przewidywaniami.
Względny błąd bezwzględny (RAE) to względna różnica bezwzględna między oczekiwaną i rzeczywistą wartością; względne, ponieważ średnia różnica jest podzielona przez średnią arytmetyczną.
Błąd względny kwadratu (RSE) podobnie normalizuje całkowity błąd kwadratowy przewidywanych wartości przez podzielenie przez całkowity błąd kwadratowy rzeczywistych wartości.
Średni błąd Zero One (MZOE) wskazuje, czy przewidywanie było poprawne, czy nie. Innymi słowy: ZeroOneLoss(x,y) = 1 kiedy x!=y; w przeciwnym razie 0.
Współczynnik determinacji, często określany jako R², reprezentuje moc predykcyjną modelu jako wartość z zakresu od 0 do 1. Zero oznacza, że model jest losowy (nic nie wyjaśnia); 1 oznacza, że istnieje idealne dopasowanie. Należy jednak zachować ostrożność podczas interpretowania wartości R² , ponieważ niskie wartości mogą być całkowicie normalne, a wysokie wartości mogą być podejrzane.

Metryki dla modeli klastrowania

Ponieważ modele klastrowania różnią się znacznie od modeli klasyfikacji i regresji w wielu aspektach, funkcja Evaluate Model zwraca również inny zestaw statystyk dla modeli klastrowania.

Statystyki zwrócone dla modelu klastrowania opisują liczbę punktów danych przypisanych do każdego klastra, ilość separacji między klastrami oraz sposób ścisłego łączenia punktów danych w każdym klastrze.

Statystyki modelu klastrowania są średnie dla całego zestawu danych z dodatkowymi wierszami zawierającymi statystyki na klaster.

Na przykład poniższe wyniki pokazują część wyników z przykładowego eksperymentu, który klastruje dane w zestawie danych PIMA Indian Diabetes Binary Classification, który jest dostępny w programie Machine Learning Studio (wersja klasyczna).

Opis wyniku	Średnia odległość do centrum klastra	Średnia odległość do innego środka	Liczba punktów	Maksymalna odległość do centrum klastra
Łączna ocena	55.915068	169.897505	538	303.545166
Ocena dla klastra nr 0	0	1	570	0
Ocena dla klastra nr 1	0	1	178	0
Ocena dla klastra nr 2	0	1	178	0

Z tych wyników uzyskasz następujące informacje:

Moduł Sweep Clustering tworzy wiele modeli klastrowania wymienionych w kolejności dokładności. Dla uproszczenia pokazaliśmy tutaj tylko najlepiej sklasyfikowany model. Modele są mierzone przy użyciu wszystkich możliwych metryk, ale modele są klasyfikowane przy użyciu określonej metryki. Jeśli zmienisz metrykę, inny model może być wyżej sklasyfikowany.
Wynik połączonej oceny w górnej części każdej sekcji wyników zawiera średnie wyniki dla klastrów utworzonych w tym konkretnym modelu.

Ten najlepiej sklasyfikowany model miał miejsce w celu utworzenia trzech klastrów; inne modele mogą tworzyć dwa klastry lub cztery klastry. W związku z tym ten połączony wynik oceny pomaga porównać modele z różnymi liczbą klastrów.
Wyniki w kolumnie Average Distance to Cluster Center (Średnia odległość do centrum klastra) reprezentują bliskość wszystkich punktów w klastrze do centroid tego klastra.
Wyniki w kolumnie Average Distance to Other Center (Średnia odległość do innego centrum) reprezentują, jak blisko, średnio każdy punkt w klastrze to centroidy wszystkich innych klastrów.

Możesz wybrać dowolną z czterech metryk, aby zmierzyć tę odległość, ale wszystkie pomiary muszą używać tej samej metryki.
Kolumna Liczba punktów pokazuje liczbę punktów danych przypisanych do każdego klastra wraz z całkowitą ogólną liczbą punktów danych w dowolnym klastrze.

Jeśli liczba punktów danych przypisanych do klastrów jest mniejsza niż całkowita liczba dostępnych punktów danych, oznacza to, że nie można przypisać punktów danych do klastra.
Wyniki w kolumnie Maximal Distance to Cluster Center reprezentują sumę odległości między każdym punktem a centroid klastra tego punktu.

Jeśli ta liczba jest wysoka, może to oznaczać, że klaster jest szeroko rozproszony. Należy przejrzeć tę statystykę wraz ze średnią odległością do centrum klastra , aby określić rozkład klastra.

Przykłady

Aby zapoznać się z przykładami generowania, wizualizowania i interpretowania metryk oceny, zobacz te przykładowe eksperymenty w galerii sztucznej inteligencji platformy Azure. Te eksperymenty pokazują, jak utworzyć wiele modeli i użyć funkcji Evaluate Model w celu określenia, który model jest najlepszy.

Porównanie klasyfikatorów binarnych: wyjaśnia, jak porównać wydajność różnych klasyfikatorów utworzonych przy użyciu tych samych danych.
Porównaj klasyfikatory wieloklasowe: pokazuje, jak porównać dokładność różnych modeli klasyfikacji utworzonych na zestawie danych rozpoznawania liter.
Porównanie regresji: przeprowadzi Cię przez proces oceniania różnych modeli regresji.
Szacowanie zapotrzebowania: dowiedz się, jak połączyć metryki oceny z wielu modeli.
Przewidywanie relacji klientów: pokazuje, jak ocenić wiele powiązanych modeli.

Oczekiwane dane wejściowe

Nazwa	Typ	Opis
Zestaw danych z wynikami	Tabela danych	Zestaw danych z wynikami
Wynikowy zestaw danych do porównania	Tabela danych	Wynikowy zestaw danych do porównania (opcjonalnie)

Dane wyjściowe

Nazwa	Typ	Opis
Wyniki oceny	Tabela danych	Wynik oceny danych

Wyjątki

Wyjątek	Opis
Błąd 0003	Wyjątek występuje, jeśli co najmniej jeden z danych wejściowych ma wartość null lub jest pusty.
Błąd 0013	Wyjątek występuje, jeśli przekazano do ucznia modułu nieprawidłowy typ.
Błąd 0020	Wyjątek występuje, jeśli liczba kolumn w niektórych zestawach danych przekazanych do modułu jest za mała.
Błąd 0021	Wyjątek występuje, jeśli liczba wierszy w niektórych zestawach danych przekazanych do modułu jest za mała.
Błąd 0024	Wyjątek występuje, jeśli zestaw danych nie zawiera kolumny etykiety.
Błąd 0025	Wyjątek występuje, jeśli zestaw danych nie zawiera kolumny oceny.

Zobacz też

Model weryfikacji krzyżowej
Ocena modułu poleceń
Evaluate
Klasyfikacja modelu

Last updated on 2019-11-13