Udostępnij za pośrednictwem


Przekształcanie danych — Edukacja z liczbami

Ważne

Obsługa programu Machine Learning Studio (wersja klasyczna) zakończy się 31 sierpnia 2024 r. Zalecamy przejście do usługi Azure Machine Learning przed tym terminem.

Od 1 grudnia 2021 r. nie będzie można tworzyć nowych zasobów programu Machine Learning Studio (wersja klasyczna). Do 31 sierpnia 2024 r. można będzie nadal korzystać z istniejących zasobów programu Machine Learning Studio (wersja klasyczna).

Dokumentacja programu ML Studio (wersja klasyczna) jest wycofywana i może nie być aktualizowana w przyszłości.

W tym artykule opisano moduły w programie Machine Learning Studio (klasyczne), które obsługują cechowanie na podstawie liczby.

Uwaga

Dotyczy: Machine Learning Studio (wersja klasyczna)

Podobne moduły przeciągania i upuszczania są dostępne w Azure Machine Learning projektanta.

Edukacja z liczbami to wydajny sposób tworzenia zwartego zestawu funkcji zestawu danych, które są oparte na liczbach wartości. Moduły w tej kategorii mogą być służące do tworzenia zestawu liczników i funkcji. Później możesz zaktualizować liczby i funkcje, aby korzystać z nowych danych, lub scalić dwa zestawy danych zliczania.

Informacje o cechowanie na podstawie liczby

Podstawowa koncepcja cechowania na podstawie liczby polega na tym, że obliczając liczby, można szybko i łatwo uzyskać podsumowanie kolumn zawierających najważniejsze informacje. Moduł zlicza, ile razy pojawia się wartość, a następnie udostępnia te informacje jako funkcję danych wejściowych modelu.

Imagine, że obowiązuje ważność transakcji kartą kredytową. Kluczowym elementem informacji jest to, skąd pochodzi ta transakcja. Jednym z najpopularniejszych kodów źródła transakcji jest kod pocztowy. Jednak do uwzględnienia może być nawet 40 000 kodów pocztowych, kodów pocztowych i kodów geograficznych. Czy model ma pojemność, aby nauczyć się 40 000 więcej parametrów? Jeśli nadasz jej pojemność, czy masz wystarczającą ilość danych treningowych, aby zapobiec jego przesłoniom?

Jeśli masz dobre dane z dużą ilością próbek, taki szczegółowy lokalny poziom szczegółowości może być zaawansowany. Jeśli jednak masz tylko jedną próbkę fałszywej transakcji z małej lokalizacji, czy oznacza to, że wszystkie transakcje z tego miejsca są złe, czy nie masz wystarczającej ilości danych?

Jednym z rozwiązań jest nauka z liczbami. Zamiast wprowadzać 40 000 kolejnych funkcji, można obserwować liczby i proporcje oszustw związanych z każdym kodem pocztowym. Używając tych wartości jako cech, można uzyskać informacje o sile dowodów dla każdej wartości. Ponadto kodowanie odpowiednich statystyk liczników może użyć tych statystyk, aby zdecydować, kiedy zmienić swoje podejście, a zamiast tego użyć innych funkcji w celu uzyskania informacji.

Uczenie oparte na liczbach jest atrakcyjne z wielu powodów. W przypadku uczenia opartego na liczbach masz mniej funkcji, co wymaga mniejszej liczby parametrów. Mniejsza liczba parametrów sprawia, że uczenie się jest szybsze, szybsze przewidywanie, mniejsze predyktory i mniejsze ryzyko przesłodzenia.

Jak są tworzone funkcje oparte na liczbach

Podstawowy przykład może pomóc zademonstrować sposób tworzenia i stosowania funkcji opartych na liczbach. Załóżmy, że masz następującą tabelę z etykietami i wejściami. Każdy przypadek (wiersz lub przykład) ma zestaw wartości w kolumnach. W tym przykładzie wartości to A i B.

Kolumna etykiety Wartość wejściowa
0 A
0 A
1 A
0 B
1 B
1 B
1 B

Oto kroki, które należy wykonać w celu utworzenia funkcji opartych na liczbach:

  1. Dla określonego zestawu wartości znajdź wszystkie inne przypadki w tym zestawie danych, które mają tę samą wartość. W tym przypadku istnieją trzy wystąpienia klasy A i cztery wystąpienia obiektu B.
  2. Policz członkostwo w klasie każdej wartości jako funkcję w sobie. W tym przypadku otrzymasz małą macierz: istnieją dwa przypadki, w których A = 0; jeden przypadek, gdzie A = 1; jeden przypadek, gdzie B = 0; i trzy przypadki, w których B = 1.
  3. Na podstawie tej macierzy można uzyskać różne funkcje oparte na liczbach. Obejmują one obliczenie współczynnika prawdopodobieńszy logarytmii i liczby dla każdej klasy docelowej. Dane zostaną wyświetlone w tabeli w następnej sekcji.

Przykładowa tabela funkcji opartych na liczbach

Etykieta 0_0_Class000_Count 0_0_Class001_Count 0_0_Class000_LogOdds 0_0_IsBackoff
0 2 1 0.510826 0
0 2 1 0.510826 0
1 2 1 0.510826 0
0 1 3 -0.8473 0
1 1 3 -0.8473 0
1 1 3 -0.8473 0
1 1 3 -0.8473 0

Przykłady

W temacie Machine Learning tworzenie modeli przewidywania z użyciem kliknięć zespół firmy Microsoft Machine Learning udostępnia szczegółowy przewodnik użycia liczby w uczeniu maszynowym. W tym artykule porównano skuteczność modelowania opartego na liczbach z innymi metodami.

Uwagi techniczne

Ta sekcja zawiera szczegóły implementacji, porady i odpowiedzi na często zadawane pytania.

Sposób obliczania wartości utraty dziennika

Wartość utraty dziennika nie jest zwykłego prawdopodobieństwo dziennika. W takim przypadku poprzednia dystrybucja jest używana do wygładzić obliczenia dotyczące logarytmii.

Załóżmy, że masz zestaw danych używany do klasyfikacji binarnej. W tym zestawie danych poprzednią częstotliwością dla klasy 0 jest p_0, a wcześniejsza częstotliwość dla klasy 1 to p_1 = 1 – p_0. W przypadku określonej funkcji przykładu trenowania liczba dla klasy 0 wynosi x_0, a liczba dla klasy 1 to x_1.

Zgodnie z tymi założeniami prawdopodobieństwo LogOdds = Log(x0 + c * p0) – Log (x1 + c\p1)dziennika jest obliczane jako , gdzie c jest współczynnikiem wcześniejszym, który może zostać ustawiony przez użytkownika. Funkcja log używa podstawy naturalnej.

Innymi słowy, dla każdej klasy i:

Log_odds[i] = Log( (count[i] + prior_coefficient * prior_frequency[i]) / (sum_of_counts - count[i]) + prior_coefficient \* (1 - prior_frequency[i]))

Jeśli poprzedni współczynnik jest dodatni, prawdopodobieństwo dziennika może różnić się od Log(count[i] / (sum_of_counts – count[i])).

Dlaczego prawdopodobieństwo dziennika nie jest obliczane dla niektórych elementów

Domyślnie wszystkie elementy z licznikiem mniejszym niż 10 są zbierane w jednym zasobniku o nazwie "kosz na śmieci". Tę wartość można zmienić przy użyciu opcji Próg kosza na śmieci w module Modyfikowanie parametrów tabeli zliczanej .

Lista modułów

Kategoria Edukacja z liczbami obejmuje następujące moduły:

  • Przekształcanie zliczania kompilacji: tworzy tabelę zliczania i funkcje oparte na liczbach na podstawie zestawu danych, a następnie zapisuje tabelę i funkcje jako przekształcenie.
  • Eksportuj tabelę zliczania: eksportuje tabelę zliczania z przekształcenia zliczania. Ten moduł obsługuje zgodność z poprzednimi wersjami z eksperymentami, które tworzą funkcje oparte na liczbach przy użyciu tabel liczby kompilacji (przestarzałe) i Count Featurizer (przestarzałe).
  • Import Count Table: importuje istniejącą tabelę zliczania. Ten moduł obsługuje zgodność z poprzednimi wersjami z eksperymentami, które tworzą funkcje oparte na liczbach przy użyciu tabel liczby kompilacji (przestarzałe) i Count Featurizer (przestarzałe). Moduł obsługuje konwersję tabel count w celu zliczenia przekształceń.
  • Scalanie przekształcenia liczby: scala dwa zestawy funkcji opartych na liczbach.
  • Modyfikowanie parametrów zliczanych tabel: modyfikuje funkcje oparte na liczbach pochodzące z istniejącej tabeli zliczania.

Zobacz też