Algorytm Bayes Microsoft Naive techniczne
The Microsoft Naive Bayes algorithm is a classification algorithm provided by Microsoft SQL Server Usługi Analysis Services for use in predictive modeling.Algorytm oblicza prawdopodobieństwo warunkowego między kolumnami danych wejściowych i przewidywalny i zakłada się, że kolumny są niezależne.To założenie niezależności prowadzi do nazwy Naive Bayes.
Implementacja algorytmu Microsoft Naive Bayes
Ten algorytm jest w praktyce mniej intensywna niż inne Microsoft Algorytmy i dlatego jest przydatne do szybkiego generowania modeli wyszukiwania wykrywanie relacje między wprowadzania kolumny i przewidywalny kolumn.Algorytm uzna każdą parą wartości atrybut wejściowe i wyjściowe wartości atrybut.
Opis właściwości matematyczne Bayes Theorem wykracza poza zakres tej dokumentacji; Aby uzyskać więcej informacji, zobacz dokument przez dział badawczy firmy Microsoft zatytułowany sieci Bayesian nauki: Kombinacja wiedzy i dane statystyczne.
Opis jak prawdopodobieństw we wszystkich modelach zostaną skorygowane konto dla potencjalnych brakujących wartości, zobacz Brak wartości (Analysis Services - wyszukiwania danych).
Wybieranie funkcji
Microsoft Naive Bayes algorytm wykonuje funkcję automatycznego zaznaczenia, aby ograniczyć liczbę wartości, które są uwzględniane podczas tworzenia modelu.Aby uzyskać więcej informacji, zobacz Zaznaczenie funkcji wyszukiwania danych.
Algorytm |
Metoda analizy |
Komentarze |
---|---|---|
Naive Bayes |
Entropia firmy Shannon Bayesian z uprzednią K2 Bayesian Dirichlet z jednolitego przed (domyślnie) |
Naive Bayes akceptuje tylko atrybuty discrete lub discretized; dlatego nie może on używać wynik interestingness. |
Algorytm zaprojektowano w taki sposób, aby zminimalizować czas przetwarzania i efektywnie zaznacz atrybuty, które mają największe znaczenie; może jednak kontrolować dane używane przez algorytm przez ustawienie parametrów w następujący sposób:
Aby ograniczyć wartości, które są używane jako dane wejściowe, zmniejszenie wartości MAXIMUM_INPUT_ATTRIBUTES.
Aby ograniczyć liczbę atrybutów analizowane przez model, zmniejsz wartość MAXIMUM_OUTPUT_ATTRIBUTES.
Aby ograniczyć liczbę wartości, które mogą być uznane za jeden dowolny atrybut, zmniejsz wartość MINIMUM_STATES.
Dostosowywanie Naive algorytm Bayes
Microsoft Naive Bayes algorytm obsługuje kilka parametrów, które wpływają na zachowanie, wydajność i dokładność wyniku model wyszukiwania.Można również ustawić modelowania modelu kolumn flag do kontrolowania sposobu przetwarzania danych lub zestaw flag na struktura wyszukiwania do określenia powinny być traktowane jak brak wartości lub nulls.
Ustawianie parametrów algorytmu
Microsoft Naive Bayes algorytm obsługuje kilka parametrów, które wpływają na wydajność i dokładność wyniku model wyszukiwania.W poniższej tabela opisano każdego parametru.
MAXIMUM_INPUT_ATTRIBUTES
Określa maksymalną liczbę wprowadzania atrybuty, które może obsłużyć algorytmu, zanim go wywołuje funkcję zaznaczania.Ustawienie wartości 0 powoduje wyłączenie zaznaczenia funkcji wprowadzania atrybutów.Wartość domyślna to 255.
MAXIMUM_OUTPUT_ATTRIBUTES
Określa maksymalną liczbę wyników atrybuty, że algorytm może obsłużyć zanim go wywołuje funkcję zaznaczania.Ustawienie wartości 0 powoduje wyłączenie funkcji zaznaczenia Wyjście atrybutów.Wartość domyślna to 255.
MINIMUM_DEPENDENCY_PROBABILITY
Określa prawdopodobieństwo minimalne zależność między atrybutami wejściowych i wyjściowych.Ta wartość jest używana, aby ograniczyć rozmiar zawartości, który jest generowany przez algorytm.To właściwość zestaw od 0 do 1.Większe wartości zmniejszyć liczbę atrybutów w modelu zawartości.Wartość domyślna to 0,5.
MAXIMUM_STATES
Określa maksymalną liczbę stanów atrybut, które obsługuje algorytm.Jeśli numer Państwa, które ma atrybut jest większa niż maksymalna liczba państw, algorytm używa atrybutu najpopularniejszych Państwa i traktuje jako brakujące pozostałe Państwa.Wartość domyślna to 100.
Modelowanie flag
Microsoft Obsługuje algorytm drzewa decyzji flagi modelowania.Podczas tworzenia struktura wyszukiwania lub modelu górnictwo zdefiniować flagi modelowania, aby określić sposób obsługi wartości w każdej kolumnie podczas analizy.Aby uzyskać więcej informacji, zobacz Flagi modelowania (wyszukiwania danych).
Flaga modelowania |
Opis |
---|---|
MODEL_EXISTENCE_ONLY |
Oznacza, że kolumna będą traktowane jako posiadające dwa możliwe stany: Brak i istniejących.Wartość null jest wartość Brak. Stosuje się do model wyszukiwania kolumna. |
NOT NULL |
Wskazuje, że kolumna nie może zawierać wartość null.Spowoduje błąd, jeśli usługi Analysis Services napotka null podczas szkolenia modelu. Stosuje się do struktura wyszukiwania kolumna. |
Wymagania
Drzewo modelu Naive Bayes musi zawierać kolumna klucz, co najmniej jeden atrybut przewidywalny i co najmniej jeden atrybut wejściowy.Atrybut nie może być ciągłe; Jeśli dane zawierają dane liczbowe ciągłego, będą ignorowane lub discretized.
Dane wejściowe i przewidywalny kolumn
Microsoft Naive Bayes algorytm obsługuje określonych kolumn danych wejściowych i przewidywalny kolumn, które są wymienione w poniższej tabela.Aby uzyskać więcej informacji dotyczących typów zawartości znaczenie w model wyszukiwania, zobacz Typy zawartości (wyszukiwania danych).
Kolumna |
Typy zawartości |
---|---|
Atrybut wejściowy |
Cykliczne, dyskretnych, Discretized klucza tabeli i Zamówione |
Przewidywalne atrybut |
Cykliczne, dyskretnych, Discretized, tabeli i Zamówione |
Ostrzeżenie
Obsługiwane są typy zawartości Cyclical i Zamówione, ale algorytm traktuje je jako dyskretnych wartości i nie wykonuje przetwarzania specjalnego.