Metody discretization (wyszukiwania danych)
Some algorithms that are used to create data mining models in SQL Server Usługi Analysis Services require specific content types in order to function correctly.Na przykład Microsoft Naive Bayes algorytm nie może używać ciągłej kolumn jako dane wejściowe i nie można przewidzieć ciągłej wartości.Ponadto niektóre kolumny może zawierać tak wiele wartości, algorytm nie można łatwo zidentyfikować wzorce interesujących danych, z których można utworzyć model.
W takich przypadkach można dyskretyzować danych w kolumnach, aby umożliwić używanie algorytmów do produkcji model wyszukiwania.Discretization to proces wprowadzanie wartości do pakiety ma ograniczoną liczbę możliwych stanów.Pakiety, sami są traktowane jako wartości zamówione i dyskretne.Można dyskretyzować kolumny liczbowe i ciąg znaków.
Istnieje kilka metod, których można dyskretyzować danych.Jeśli Twój wyszukiwanie danych roztwór używa relacyjnej bazie danych, można kontrolować liczbę pakiety dla grupowanie danych przez ustawienie wartości DiscretizationBucketCount właściwość.Domyślna liczba pakiety wynosi 5.
Jeśli rozwiązanie górnictwo danych korzysta z danych z moduł Online Analytical Processing (OLAP), algorytmu wyszukiwanie danych automatycznie oblicza liczbę pakiety, aby wygenerować przy użyciu następującego równania gdzie n jest liczba różnych wartości danych kolumna:
Number of Buckets = sqrt(n)
Jeśli nie chcesz Usługi Analysis Services , aby obliczyć liczbę pakiety, można użyć DiscretizationBucketCount właściwość, aby ręcznie określić liczbę pakiety.
W poniższej tabela opisano metody, których można dyskretyzować danych w Usługi Analysis Services.
Metoda discretization |
Opis |
---|---|
AUTOMATIC |
Usługi Analysis Services Określa metoda discretization. |
CLUSTERS |
Algorytm dzieli dane na grupy próbkowanie danych szkolenia, inicjowanie na liczbę losową punkty a następnie uruchamiając kilka iteracji algorytm klastrowania firmy Microsoft za pomocą maksymalizacyjne oczekiwania (EM) klastrowanie metoda.CLUSTERS Metoda jest przydatna, ponieważ działa ona na krzywej dowolnej dystrybucji.Jednak wymaga więcej przetwarzania czas niż inne metody discretization. Tej metoda należy używać tylko z kolumn numerycznych. |
EQUAL_AREAS |
Algorytm dzieli dane na grupy zawierające równą liczbę wartości.Ta metoda jest najlepsza w przypadku krzywych rozkład normalny, ale nie działa dobrze, jeśli dystrybucji zawiera dużą liczbę wartości, które występują w grupie wąska ciągłego danych.Na przykład jeśli połowy elementów kosztów 0, połowę danych nastąpi w pojedynczy punkt na krzywej.W dystrybucji ta metoda podział danych w celu ustanowienia równych discretization do wielu obszarów.Daje niedokładne reprezentacja danych. |
Uwagi
Można użyć EQUAL_AREAS metoda dyskretyzować ciągów.
CLUSTERS Metoda wykorzystuje losowo 1000 rekordów do dyskretyzować danych.Użyj EQUAL_AREAS metoda, jeśli nie chcesz, aby algorytm przykładowych danych.
Sieci neuronowe model wyszukiwania samouczek zawiera przykład sposobu discretization można dostosować.Aby uzyskać więcej informacji, zobacz Lekcja 5: Tworzenie sieci neuronowe i modele regresją (pośrednie samouczek wyszukiwania danych).
Zobacz także