Brak wartości (Analysis Services - wyszukiwania danych)
Brak wartości oznaczyć szereg różnych elementów danych.Prawdopodobnie pole nie ma to zastosowanie, zdarzenie nie tak się stało, lub dane nie były dostępne.Może to być osoba wprowadzone dane nie wiedzieć, wartość prawa lub nie opieki, jeśli pole nie zostało wypełnione.Dlatego Usługi Analysis Services udostępnia dwa mechanizmy znacznie się różnią, zarządzanie i obliczania tych wartości Brak, znane również jako null wartości.
Jeśli zadanie, które są modelowania Określa, że kolumna muszą mieć nigdy nie brakuje wartości, należy użyć NOT_NULL modelowania bandery podczas definiowania struktura wyszukiwania.Daje to pewność, że przetwarzanie zakończy się niepowodzeniem, jeśli przypadek nie ma odpowiednią wartość.Jeśli wystąpi błąd podczas przetwarzania modelu, można błąd i podejmują kroki w celu skorygowania danych dostarczonych do modelu.Istnieją różne narzędzia, których można wywnioskować, a następnie wprowadź odpowiednie wartości, takie jak transformacja wyszukiwania lub zadania Profiler danych w programie SQL Server Integration Services lub narzędzie wypełnienie przez przykład przewidziane w danych górnictwa dodatki programu Excel.
Istnieją jednak również wiele scenariuszy wyszukiwanie danych, w których brakuje wartości zawierają ważne informacje.Ogólnie Usługi Analysis Services traktuje brakujących wartości jako szczegółowy i dostosowuje prawdopodobieństwa, aby dołączyć brakujące wartości do obliczenia.W ten sposób można zapewnić, że modele są domknięte i nie waga istniejących przypadkach zbyt mocno.W tej sekcji wyjaśniono, jak wartości są zdefiniowane i liczony jako Brak w modelach, które pozwalają wartości null.W tym temacie opisano sposób przetwarzania algorytmów wyszukiwanie danych i te Missing wartości podczas tworzenia modelu.
Ostrzeżenie
Każdy algorytm, włączając niestandardowe algorytmów, które zostały uzyskane od strony trzeciej, dodatek, może obsłużyć inaczej brakujących wartości.
Używając wartości Brak modeli
Algorytmu wyszukiwanie danych brakuje wartości są miarodajne.przypadek tabel Missing jest prawidłowy stan, podobnie jak inne.Ponadto dane model wyszukiwania można użyć innych wartości do przewidywania, czy wartość Brak.Innymi słowy fakt, że brak wartości nie jest traktowana jako błąd.
Podczas tworzenia danych model wyszukiwania, Missing Państwo jest automatycznie dodawane do modelu dla wszystkich kolumn dyskretnego.Na przykład, jeśli kolumna danych wejściowych dla płci zawiera dwóch możliwych wartości, samiec i samica, trzecia wartość jest automatycznie dodawany do reprezentowania Missing wartość i histogramu, który pokazuje rozkład wszystkich wartości w kolumnie zawsze zawiera liczba przypadków z Missing wartości.Kolumna płci nie brakuje żadnych wartości, histogram pokazuje, że Państwo Brak znajduje się w przypadkach 0.
W tym Missing Państwo domyślnie sens podczas rozważyć danych nie mieć Przykłady możliwych wartości, a nie należy modelu, aby wykluczyć możliwość właśnie powodu przykład nie danych.Na przykład jeśli dane dotyczące sprzedaży dla Sklepu wykazało wszystkich klientów, którzy kupili niektórych produktów stało się kobiet, czy nie chcesz utworzyć model, który przewiduje, że tylko kobiet na zakup produktu.Zamiast tego Usługi Analysis Services dodaje symbol zastępczy dla dodatkowych Nieznana wartość o nazwie Missing, jako sposób zmieszczenie możliwości innych Państw.
Na przykład w poniższej tabela zaprezentowano dystrybucji wartości (wszystkie) węzła w modelu drzewo decyzyjne utworzone samouczek Bike kupującego.Scenariusz przykładowy kolumna [Bike kupujący] jest atrybut przewidywalny, gdzie 1 wskazuje "Tak" i 0 oznacza "Nie".
Wartość |
Przypadki |
---|---|
0 |
9296 |
1 |
9098 |
Brak |
0 |
Rozkład ten pokazuje, że około połowa klienci zakupili rowerów i połowa nie ma.Ten określony zestaw danych jest bardzo czysty; Dlatego każdy przypadek ma wartość kolumna [Bike kupujący] i liczba Missing wartości to 0.Jednakże, jeśli żadnego przypadek miał wartość null pole [Bike kupującyUsługi Analysis Services traktowane jako sprawę z tego wiersza Missing wartości.
Jeśli dane wejściowe są ciągłego kolumna, model ustawić tabulację dwóch możliwych stanów atrybut: Existingand Missing.Innymi słowy kolumna zawiera wartości typu niektóre dane liczbowe albo zawiera wartość nie.W przypadkach, które mają wartość modelu oblicza średnią, odchylenie standardowe i inne właściwe statystyki.W przypadkach, których wartość nie, model zawiera liczbę Missing vales i odpowiednio dostosowuje przewidywań.Metoda dostosowywania przewidywanie różni się w zależności od algorytmu i opisane w poniższej sekcji.
Ostrzeżenie
Atrybuty tabela zagnieżdżonej brakujących wartości nie są miarodajne.Na przykład, jeśli klient nie zakupiła produkt zagnieżdżony produktów tabela nie miałoby wiersz odpowiadający produktu i model wyszukiwania nie spowodowałoby atrybut Brak produktu.Jednakże jeżeli interesuje Cię klientów, którzy nie zakupiono niektórych produktów, można utworzyć model, który jest filtrowany bez istnienia produktów w tabela zagnieżdżonej przy użyciu instrukcja NOT EXISTS w filtrze modelu.Aby uzyskać więcej informacji, zobacz Jak Zastosować filtr do modelu górnictwo.
Dopasowywanie prawdopodobieństwa dla brakujących wartości.
Oprócz zliczanie wartości, Usługi Analysis Services oblicza prawdopodobieństwo dowolną wartość między zestaw danych.To samo dotyczy dla Missing wartości.Na przykład w poniższej tabela przedstawiono prawdopodobieństwa dla przypadków w poprzednim przykładzie:
Wartość |
Przypadki |
Prawdopodobieństwo |
---|---|---|
0 |
9296 |
50.55% |
1 |
9098 |
49.42% |
Brak |
0 |
0.03% |
Może się wydawać nieparzysta, prawdopodobieństwo Missing wartość jest obliczana jako 0,03%, gdy liczba przypadków jest 0.W fakt, to zachowanie jest zgodne z projektem i łagodnie reprezentuje korekty, który pozwala modelu obsługi wartości nieznany.
Ogólnie rzecz biorąc prawdopodobieństwo jest obliczany jako korzystna przypadkach podzielona przez wszystkich możliwych przypadków.W tym przykładzie algorytm oblicza sumę przypadków, które spełniają określony warunek ([Bike kupujący] = 1 lub [Bike kupujący] = 0) i dzieli tę liczbę przez całkowitą liczbę wierszy.Jednak do konta dla Missing przypadkach 1 dodaje się liczbę wszystkich możliwych przypadkach.W wyniku prawdopodobieństwo przypadek nieznanych nie jest już równa zero, ale bardzo małej liczby wskazujące, że Państwo jest niemożliwe, jedynie nietypowymi.
Dodanie małą Missing wartość nie zmienia wyniku predykcyjne; jednak umożliwia lepsze modelowania w scenariuszach, w którym dane historyczne nie obejmuje wszystkich możliwych wyników.
Ostrzeżenie
Dostawców wyszukiwania danych różnią się w sposobie obsługi brakujących wartości.Niektórzy dostawcy Przyjmijmy, że brakujące dane kolumna zagnieżdżonych jest rozrzedzony reprezentacji, ale brakuje brakujące dane kolumna zagnieżdżone w losowej.
Jeśli masz pewność, że wszystkie wyniki są określone w danych i chcesz uniemożliwić prawdopodobieństw wyregulowane, należy zestaw NOT_NULL modelowania flagi na kolumnie w strukturze górniczych.
Specjalnej obsługi brakujące wartości w modelach drzewa decyzji
Algorytm drzewa decyzji Microsoft obliczanie prawdopodobieństwa dla brakujących wartości, inaczej niż w innych algorytmów.Zamiast po prostu 1 do całkowitej liczby przypadków, algorytm drzewa decyzji dopasowuje dla brakujących Państwa przy użyciu formuły nieco inne.
W drzewo decyzyjne model prawdopodobieństwa stanu Brak jest obliczana w następujący sposób:
StateProbability = (NodePriorProbability) * (StateSupport + 1) / (NodeSupport + TotalStates)
Ponadto w programie SQL Server 2008 Analysis Services, dodatkowego dostosowania pomaga algorytm zrekompensować obecności filtry na modelu, który może spowodować w wielu Państwach, które mają być wykluczone podczas szkolenia zapewnia algorytm drzewa decyzji.
W SQL Server 2008, jeśli stan jest obecny podczas szkolenia, ale właśnie się dzieje z Obsługa 0 jest w niektórych węzła, standardowe dostosowania.Jednakże jeśli Państwo nigdy nie wystąpi podczas szkolenia, algorytm ustawia prawdopodobieństwo dokładnie 0.Dostosowanie to dotyczy nie tylko do stanu Brak, ale Państwom istnieje w dane szkolenia, które obsługują 0 od wyniku filtrowania modelu.
Dostosowanie to dodatkowe wyniki w następującej formule:
StateProbability = 0,0 Jeśli Państwo obsługuje 0 w zestaw szkoleniowy
ELSE StateProbability = (NodePriorProbability) * (StateSupport + 1) / (NodeSupport + TotalStatesWithNonZeroSupport)
Skutek netto to dopasowanie jest utrzymanie stabilności drzewa.