Omówienie zestawów danych
Modele uczenia maszynowego "uczą się" od historycznych decyzji i akcji przechwyconych w danych treningowych. W związku z tym ich wydajność w rzeczywistych scenariuszach ma duży wpływ na dane, na które są trenowane. Gdy dystrybucja funkcji w zestawie danych jest niesymetryczna, może spowodować niepoprawne przewidywanie punktów danych należących do niedostatecznie reprezentowanej grupy lub zoptymalizowanie wzdłuż niewłaściwej metryki.
Na przykład, gdy model trenował system sztucznej inteligencji do przewidywania cen domów, zestaw szkoleniowy stanowił 75 procent nowszych domów, które miały mniej niż mediany cen. W rezultacie było to znacznie mniej dokładne w pomyślnej identyfikacji droższych domów historycznych. Poprawka polegała na dodaniu starszych i drogich domów do danych szkoleniowych i rozszerzaniu funkcji w celu uwzględnienia szczegółowych informacji o wartości historycznej. To rozszerzenie danych poprawiło wyniki.
Składnik analizy danych pulpitu nawigacyjnego odpowiedzialnej sztucznej inteligencji pomaga wizualizować zestawy danych na podstawie przewidywanych i rzeczywistych wyników, grup błędów i określonych funkcji. Ułatwia to identyfikowanie problemów z nadmiernym przedstawianiem i niedoreprezentacją oraz sprawdzenie, jak dane są klastrowane w zestawie danych. Wizualizacje danych składają się z zagregowanych wykresów lub poszczególnych punktów danych.
Kiedy należy używać analizy danych
Użyj analizy danych, gdy musisz:
- Eksploruj statystyki zestawu danych, wybierając różne filtry, aby podzielić dane na różne wymiary (nazywane również kohortami).
- Omówienie dystrybucji zestawu danych w różnych kohortach i grupach funkcji.
- Ustal, czy wyniki związane z uczciwością, analizą błędów i przyczynowością (pochodzące z innych składników pulpitu nawigacyjnego) są wynikiem dystrybucji zestawu danych.
- Zdecyduj, w których obszarach zebrać więcej danych, aby wyeliminować błędy wynikające z problemów z reprezentacją, szum etykiet, szum funkcji, stronniczość etykiet i podobne czynniki.
Następne kroki
- Dowiedz się, jak wygenerować pulpit nawigacyjny odpowiedzialnej sztucznej inteligencji za pomocą interfejsu wiersza polecenia i zestawu SDK lub interfejsu użytkownika usługi Azure Machine Learning Studio.
- Zapoznaj się z obsługiwanymi wizualizacjami analizy danych pulpitu nawigacyjnego Odpowiedzialne używanie sztucznej inteligencji.
- Dowiedz się, jak wygenerować kartę wyników odpowiedzialnej sztucznej inteligencji na podstawie szczegółowych informacji obserwowanych na pulpicie nawigacyjnym odpowiedzialnej sztucznej inteligencji.