Udostępnij za pośrednictwem


Metody discretization (wyszukiwania danych)

Some algorithms that are used to create data mining models in SQL Server Usługi Analysis Services require specific content types in order to function correctly.Na przykład Microsoft Naive Bayes algorytm nie może używać ciągłej kolumn jako dane wejściowe i nie można przewidzieć ciągłej wartości.Ponadto niektóre kolumny może zawierać tak wiele wartości, algorytm nie można łatwo zidentyfikować wzorce interesujących danych, z których można utworzyć model.

W takich przypadkach można dyskretyzować danych w kolumnach, aby umożliwić używanie algorytmów do produkcji model wyszukiwania.Discretization to proces wprowadzanie wartości do pakiety ma ograniczoną liczbę możliwych stanów.Pakiety, sami są traktowane jako wartości zamówione i dyskretne.Można dyskretyzować kolumny liczbowe i ciąg znaków.

Istnieje kilka metod, których można dyskretyzować danych.Jeśli Twój wyszukiwanie danych roztwór używa relacyjnej bazie danych, można kontrolować liczbę pakiety dla grupowanie danych przez ustawienie wartości DiscretizationBucketCount właściwość.Domyślna liczba pakiety wynosi 5.

Jeśli rozwiązanie górnictwo danych korzysta z danych z moduł Online Analytical Processing (OLAP), algorytmu wyszukiwanie danych automatycznie oblicza liczbę pakiety, aby wygenerować przy użyciu następującego równania gdzie n jest liczba różnych wartości danych kolumna:

Number of Buckets = sqrt(n)

Jeśli nie chcesz Usługi Analysis Services , aby obliczyć liczbę pakiety, można użyć DiscretizationBucketCount właściwość, aby ręcznie określić liczbę pakiety.

W poniższej tabela opisano metody, których można dyskretyzować danych w Usługi Analysis Services.

Metoda discretization

Opis

AUTOMATIC

Usługi Analysis Services Określa metoda discretization.

CLUSTERS

Algorytm dzieli dane na grupy próbkowanie danych szkolenia, inicjowanie na liczbę losową punkty a następnie uruchamiając kilka iteracji algorytm klastrowania firmy Microsoft za pomocą maksymalizacyjne oczekiwania (EM) klastrowanie metoda.CLUSTERS Metoda jest przydatna, ponieważ działa ona na krzywej dowolnej dystrybucji.Jednak wymaga więcej przetwarzania czas niż inne metody discretization.

Tej metoda należy używać tylko z kolumn numerycznych.

EQUAL_AREAS

Algorytm dzieli dane na grupy zawierające równą liczbę wartości.Ta metoda jest najlepsza w przypadku krzywych rozkład normalny, ale nie działa dobrze, jeśli dystrybucji zawiera dużą liczbę wartości, które występują w grupie wąska ciągłego danych.Na przykład jeśli połowy elementów kosztów 0, połowę danych nastąpi w pojedynczy punkt na krzywej.W dystrybucji ta metoda podział danych w celu ustanowienia równych discretization do wielu obszarów.Daje niedokładne reprezentacja danych.

Uwagi