Wydajność modelu przewidywania
Po każdym trenowaniu narzędzie AI Builder używa zestawu danych testowych do oceny jakości i dokładności nowego modelu. Na stronie podsumowania modelu jest wyświetlany wynik trenowania modelu. Wyniki te są wyrażone jako kategoria wydajności, A, B, C lub D.
Mierzenie wydajności
Ocena wydajności
Po każdym szkoleniu AI Builder pokazuje ocenę, która pomaga ocenić dokładność modelu. To, czy Twój model jest gotowy do opublikowania, jest jedną z decyzji, które musisz podjąć w oparciu o Twoje unikatowe potrzeby i okoliczności. AI Builder oferuje następujące kategorie wydajności, które ułatwiają podjęcie takiej decyzji.
Jak interpretować poszczególne kategorie
Kategoria | Wskazówki |
---|---|
A | Nadal można dokonywać poprawek modelu, ale jest to najwyższa kategoria, jaką można uzyskać. |
B | Model zachowuje się prawidłowo w większości przypadków. Czy można go ulepszyć? To zależy od unikatowych okoliczności, danych i wymagań. |
C | Model ma nieco lepsze wyniki niż doświadczenie losowe. Może być to akceptowalne w niektórych zastosowaniach, ale w większości przypadków jest to model, który nadal należy dostosowywać i poprawiać. |
D | Coś jest nie tak. Model jest tak gorszy jak, że oczekujemy na losową próbę wykonania (model niedostatecznie dopasowany). Albo radzi sobie na tyle dobrze (na poziomie 100% lub blisko niego), że prawdopodobnie wygenerował kolumnę danych bezpośrednio skorelowanych z wynikiem (model nadmiernie dopasowany) . |
- Więcej informacji na temat modeli niedostatecznie dopasowanych
- Więcej informacji na temat modeli nadmiarowo dopasowanych
Zakres dokładności jest uzależniony od danych użytkownika
Jeśli przewidujesz 2 lub więcej wyników, rzeczywiste wskaźniki dokładności, które odpowiadają powyższym kategoriom, mogą się różnić w zależności od rozkładu danych historycznych. Różnica wynika z tego, że poprawa wyników zależna od wskaźnika punktu odniesienia zmienia się w miarę przenoszenia punktu odniesienia.
Załóżmy, że model przewiduje, czy przesyłka dotrze na czas. Jeśli historyczny wskaźnik dostarczania przesyłek na czas wynosi 80procent, to ocena wydajności o wartości 92 będzie odpowiadał kategorii B. Ale jeśli historyczny wskaźnik dostarczania przesyłek na czas wynosi tylko 50procent, wartość 92 będzie odpowiadała kategorii A. Jest to spowodowane tym, że 92 jest znacznie lepszym wynikiem w porównaniu z wartością 50procent niż w porównaniu z wartością 80procent (jest to wartość bliska doświadczeniu losowemu).
Przykład danych historycznych w postaci dwójkowej
Ten przykład pokazuje zakresy dokładności dla każdej kategorii, gdy dane historyczne zawierają różne wskaźniki dostarczania przesyłek na czas.
Kategoria | Zakres dokładności dla historycznego wskaźnika dostarczania przesyłek na czas wynoszącego 25% | Zakres dokładności dla historycznego wskaźnika dostarczania przesyłek na czas wynoszącego 50% | Zakres dokładności dla historycznego wskaźnika dostarczania przesyłek na czas wynoszącego 80% | Zakres dokładności dla historycznego wskaźnika dostarczania przesyłek na czas wynoszącego 95% |
---|---|---|---|---|
A | 92,5 – <99,3% | 90 – 98% | 93 – <99% | 98,1 – <99,8% |
B | 81,3 – <92,5% | 75 – <90% | 84 – <93% | 95,3 – <98,1% |
C | 66,3 – <81,3% | 55 – <75% | 71 – <84% | 91,5 – <95,3% |
D | <66,3% lub ≥99,3% | <55% lub ≥98% | <71% lub ≥99% | <91,5% lub ≥99,8% |
Przykład danych historycznych dotyczących wyniku wielokrotnego
Stopy dokładności odpowiadające poszczególnym klasom mogą również różnić się w zależności od tego, czy jest przewidywane więcej niż 2 wyniki. Załóżmy, że model przewiduje więcej niż dwie opcje dostawy: wczesną, na czas lub późną.
Zakresy dokładności dla poszczególnych klas zmieniają się w zależności od historycznych zmian kursów w czasie.
Kategoria | Wcześnie (33,3%) | Wcześnie (20%) | Wcześnie (10%) |
---|---|---|---|
Terminowo (33,3%) | Terminowo (40%) | Terminowo (80%) | |
Późno (33,4%) | Późno (40%) | Późno (10%) | |
A | 86,7 – <98,7% | 87,2 – <98,7% | 93,2 – <99,3% |
B | 66,7 – <86,7% | 68,0 – <87,2% | 83,0 – <93,2% |
C | 40,0 – <66,7% | 42,4 – <68,0% | 69,4 – <83,0% |
D | 33,3 – <40,0% | 36,0 – <42,4% | 66,0 – <69,4% |
Przykład numeryczny przewidywanie
Dla oceny przewidywanie AI Builder używa miary statystycznej z kwadratem R do obliczenia oceny dokładności modeli. W poniższej tabeli przedstawiono oceny odpowiadające poszczególnym kategoriom:
Kategoria | R-kwadrat |
---|---|
A | 85% – <99% |
B | 60% – <85% |
C | 10% – <60% |
D | ≥99% lub <10% |
Szczegóły wydajności
Aby uzyskać szczegółowe informacje dotyczące trenowania, wybierz pozycję Zobacz szczegóły w polu kategorii modelu. Na karcie Wydajność dostępne są następujące informacje:
Uwaga
Aby uzyskać informacje na temat dodatkowych funkcji planowanych dla tego obszaru, zobacz Plany wydań.
- Ocena dokładności
- R-kwadrat
Ocena dokładności
AI Builder oblicza ocenę dokładności dla modelu na podstawie wyniku przewidywania zestawu danych testowych. Przed rozpoczęciem trenowania narzędzie AI Builder dzieli zestaw danych na osobne zestawy danych treningowych i danych testowych. Po wytrenowaniu narzędzie AI Builder stosuje model AI do zestawu danych testowych, a następnie oblicza ocenę dokładności. Na przykład jeśli test zestaw danych 200 wierszy i AI Builder prawidłowo przejmie 192 z nich, w AI Builder jest wyświetlany wynik dokładności 96 procent.
Aby uzyskać więcej informacji, zobacz Ocena modelu.
R-kwadrat
Dla wartości przewidywanie AI Builder oblicza wynik r-kwadrat po każdym szkoleniach. Ten punkt jest miarą zgodności modelu z dobrą zgodnością i służy do wyznaczania kategorii wydajności modelu.
Załóżmy, że chcesz przewidzieć, ile dni potrwa zrealizowanie, wysłanie i dostarczenie zamówienia. Model przewiduje zestaw liczb. Wartość r-kwadrat jest oparta na odległości między wartościami przewidzianymi a rzeczywistymi wartościami w danych trenowania. Jest ona wyrażona jako liczba z zakresu od 0 do 100%, gdzie wyższe wartości wskazują, że przewidywana wartość jest bliższa wartości rzeczywistej. Zazwyczaj wyższa kategoria oznacza lepszą wydajność modelu. Pamiętaj jednak, że idealne lub niemal idealne wyniki (modele nadmiernie dopasowane) zwykle wskazują na problem z danymi trenowania.
Na karcie Podsumowanie dostępne są następujące informacje dotyczące wydajności:
- Data trenowania
- Źródło danych
- Wynik historyczny
- Lista tabeli używana do przewidywania.
Poprawianie wydajności modelu przewidywania
Po przeprowadzeniu trenowania i oceny modelu należy dostosować model, aby poprawić jego wydajność. Oto kilka rzeczy, których możesz spróbować w celu poprawy mocy predykcyjnej modelu.
Przegląd błędów i problemów
- Jeśli występują błędy po zakończeniu trenowania, napraw je i ponownie wytrenuj model.
- Jeśli nie ma żadnych błędów, sprawdź szczegóły trenowania. Spróbuj rozwiązać jak najwięcej problemów, a następnie ponownie wytrenuj model.
Przegląd najważniejszych elementów mających wpływ
Po każdym trenowaniu na stronie szczegółów modelu zostanie wyświetlona lista najważniejszych elementów mających wpływ. Każda kolumna użyta w trenowaniu ma ocenę reprezentującą jej wpływ na trenowanie. Te wyniki łącznie wynoszą 100 procent.
Dzięki temu można zobaczyć, czy model jest trenowany zgodnie z oczekiwaniami. Na przykład jeśli chcesz przewidzieć zamiary klientów online i oczekujesz, że najistotniejszymi kolumnami będą Wiek i Produkt, powinno to być widoczne na liście najbardziej wpływowych kolumn na stronie szczegółów modelu. Jeśli tak nie jest, może to wskazywać, że wynik trenowania nie jest zgodny z oczekiwaniami. W takim przypadku możesz usunąć zaznaczenie nieistotnych lub mylących kolumn i ponownie wykonać trenowanie modelu lub sprawdzić problemy trenowania, aby wyświetlić dalsze szczegóły.
Dodaj więcej danych
Minimalne wymaganie dla danych treningowych to 50 wierszy, ale to nie znaczy, że 50 wierszy danych wytrenuje model wysoce predykcyjny. Spróbuj dostarczyć 1000 lub więcej wierszy danych, właściwie oznakowanych, z realistycznym rozkładem między opcjami.
Sprawdzanie rozkładu danych
Na przykład jeśli używasz dwóch etykiet opcji Tak lub Nie, a większość wierszy danych zawiera tylko wartość Tak w tej kolumnie, trudno jest, aby model wyuczył się na podstawie tych danych. Staraj się, aby rozkład opcji w danych z grubsza odzwierciedlał rozkład opcji, którego możesz się spodziewać. Na przykład jeśli patrzysz na kolumny danych cat_owner (właściciel kota) i dog_owner (właściciel psa), użyj rozkładu danych około 50 procent. Jeśli przeglądasz fałszywe transakcje, użyj bardziej niezrównoważonego rozkładu – może 95 procent do 5 procent. Zapoznaj się ze standardami branżowymi dla tego typu informacji, jeśli nie wiesz, czego oczekiwać.
Dodawanie kolejnych kolumn
Na przykład jeśli chcesz przewidzieć, którzy klienci są bardziej skłonni do powrotu i zakupienia Twoich produktów, możesz dodać więcej kolumn, aby wzbogacić dane treningowe. Na przykład:
- Jak klient ocenia produkt?
- Jak często używa produktu?
- Czy jest to istniejący klient?
Zawężanie wybranych kolumn do istotnych informacji
Być może masz już mnóstwo poprawnie etykietowanych danych treningowych z dużą liczbą kolumn danych. Dlaczego zatem model nadal nie działa dobrze? Może to oznaczać, że wybierasz kolumny, które prowadzą do niepożądanego odchylenia. Upewnij się, że wszystkie wybrane kolumny są istotne i mają wpływ na to, co chcesz przewidzieć. Anuluj wybór nieistotnych lub mylących kolumn.
Weryfikacja danych
- Upewnij się, że kolumny danych nie mają dużej liczby brakujących wartości (ponad 99procent). Wypełnij brakujące wartości danymi domyślnymi lub usuń kolumnę danych z trenowania modelu.
- Jeśli kolumna danych ma wysoką korelację z wynikiem przewidywania, usuń tę kolumnę danych ze szkolenia modelu.