Artykuł
05/11/2010

Sekwencja Microsoft klastrowanie algorytm informacje techniczne

algorytm grupowania sekwencji firmy Microsoft jest algorytm hybrydowego, którego używa do identyfikowania sekwencji uporządkowanej Markov łańcucha analizy i łączy wyniki tej analizy z klastrowanie technik do generowania klastrów na podstawie sekwencji i inne atrybuty w modelu.W tym temacie opisano stosowania algorytmu, jak dostosować algorytmu oraz specjalne wymagania dotyczące sekwencji klastrowanie modeli.

Aby uzyskać więcej ogólnych informacji na temat algorytmu, takich jak przeglądanie i sekwencji kwerendy klastrowanie modeli zobacz Algorytm klastrowanie Microsoft sekwencji.

Wdrożenie algorytm grupowania sekwencji firmy Microsoft

Model klastrowanie w sekwencji Microsoft używa Markov modeli, do identyfikacji sekwencji i określić prawdopodobieństwo sekwencji.Model Markov jest bezpośrednie wykresu, który przechowuje przejść między różne stany.algorytm grupowania sekwencji firmy Microsoft Wykorzystuje kolejność n Markov łańcuchów, nie modelu Markov ukryte.

Liczba zamówień w łańcuchu Markov informuje, ile stanów są używane do określania prawdopodobieństwa bieżących stanów.W modelu Markov pierwszego rzędu prawdopodobieństwo bieżącego stanu zależy tylko poprzedniego stanu.W łańcuchu Markov drugiego zamówienia prawdopodobieństwo stanu zależy od poprzedniej dwa stany i tak dalej.Dla każdego łańcucha Markov macierzy przejścia przechowuje przejścia dla każdej kombinacji stanów.Długość łańcucha Markov wzrasta, rozmiar macierzy także zwiększa wykładniczo i macierzy staje się bardzo rozrzedzone.Czas przetwarzania zwiększa także proporcjonalnie.

Może to być przydatne do wizualizacji łańcucha przy użyciu przykład analiza sekwencji odwiedzanych stron, która analizuje odwiedzania strony sieci Web w witrynie.Każdy użytkownik tworzy długich sekwencji kliknięć dla każdej sesja.Podczas tworzenia modelu do analizy zachowanie użytkownika witryna sieci Web, dane ustawiony używanych szkolenia jest sekwencja adresów URL, które są konwertowane do wykresu, który zawiera liczbę wszystkich wystąpień tego samego kliknij ścieżka.Na przykład wykres zawiera prawdopodobieństwo, że użytkownik przechodzi od strony 1, aby strona 2 (10 %), prawdopodobieństwo, że użytkownik przechodzi od strony 1 na stronę (20 %), 3 itd.Po wprowadzeniu wszystkich możliwych ścieżka i części ścieżka razem uzyskać na wykresie może być znacznie dłużej i bardziej skomplikowane niż każdej pojedynczej ścieżka obserwowanych.

Domyślnie algorytm grupowania sekwencji firmy Microsoft wykorzystuje metoda Maximization oczekiwania (EM) usługi klastrowania.Aby uzyskać więcej informacji zobaczInformacje techniczne algorytm klastrowanie Microsoft.

Lokalizacje docelowe klastrowanie atrybutów sekwencyjne i niesekwencyjną sieć powiązań.Każdy klaster jest losowo przy użyciu rozkładu prawdopodobieństwa.Każdy klaster ma łańcuch Markov, reprezentującą kompletny zestaw ścieżek i matrycy, która zawiera przejścia w stan sekwencji oraz nimi prawdopodobieństwa.W zależności od początkowego dystrybucji, reguła Bayes jest używana do obliczania prawdopodobieństwa atrybut, w tym kolejności, w określonym klastrze.

algorytm grupowania sekwencji firmy Microsoft Obsługuje dodatkowe atrybuty niesekwencyjną sieć powiązań, w modelu.Oznacza to, że te atrybuty dodatkowe są połączone z atrybutami sekwencji do tworzenia klastrów przypadkach o podobnych atrybutach, podobnie jak w typowe klastrowanie modelu.

Klastrowanie modelu sekwencji sprawia, do tworzenia wielu klastrów więcej niż typowy model klastrowania.Dlatego też algorytm grupowania sekwencji firmy Microsoft wykonuje rozkład klastra osobne klastry, na podstawie sekwencji i inne atrybuty.

Funkcja Zaznaczanie w sekwencji klastrowanie modelu

Funkcja wyboru nie jest wywoływana, gdy tworzenia sekwencji; jednak wybór funkcja ma zastosowanie w klastrowanie etapu.

Typ modelu	Funkcja wyboru metoda	Komentarze
Sekwencja klastrowanie	Nie używane	Funkcja wyboru nie jest wywoływany; jednak kontrolować zachowanie algorytmu przez ustawienie wartości parametrów MINIMUM_SUPPORT i MINIMUM_PROBABILIITY.
Klastrowanie	Wynik interestingness	Mimo że klastrowanie algorytm może używać discrete lub discretized algorytmów, wynik każdej właściwości jest obliczana jako odległości i jest ciągła; z tego powodu wynik interestingness jest używany.

Aby uzyskać więcej informacji zobaczFeature Selection.

Optymalizowanie wydajności

Algorytm Microsoft sekwencji usługa klastrowania obsługuje różnych sposobów na optymalizację przetwarzania:

Kontrolowanie liczbę generowanych przez ustawienie wartości parametru CLUSTER_COUNT klastrów.
Zmniejszanie liczby sekwencji uwzględnione jako atrybuty, zwiększając wartość parametru MINIMUM_SUPPORT.W rezultacie eliminuje rzadko sekwencji.
Zmniejszenie złożoności przed przetworzeniem modelu, za pomocą funkcji grupowanie pokrewnych atrybutów.

Ogólnie rzecz biorąc, optymalizacji wydajności n-tryb łańcucha Markov zlecenia na kilka sposobów:

Kontrolowanie długość sekwencji możliwych.
Programowo zmniejszenia wartości n.
Przechowywanie tylko prawdopodobieństw przekraczające określony próg.

Szczegółowe omówienie tych metod wykracza poza zakres tego tematu.

Dostosowywanie sekwencji klastrowanie algorytmu

The Microsoft Sequence klastrowanie algorithm supports parameters that affect the behavior, performance, and accuracy of the resulting model wyszukiwania. Można także zmodyfikować zachowanie zakończonych modelu przez ustawienie flagi przetwarzania danych szkoleniowych przez kontrolę sposobu algorytm modelowania.

Ustawianie parametrów algorytmu

W poniższej tabela opisano parametry, które może być używany z algorytm grupowania sekwencji firmy Microsoft.

CLUSTER_COUNT
Określa przybliżoną liczbę klastrów do być budowany za algorytmu.Jeśli przybliżoną liczbę klastrów nie może być wbudowane w danych, algorytm tworzy liczbę klastrów jak to możliwe.Ustawienie parametru CLUSTER_COUNT na 0 powoduje, że algorytm użycia rozwiązania heurystyczne służące do najlepiej określają liczbę klastrów do utworzenia.

Wartość domyślna to 10.

Uwaga

Określanie działania numerów zera jako wskazówkę algorytmu, który przechodzi w celu znalezienia określonej liczby, ale może się to zakończyć przypadkowym wyszukiwanie więcej lub mniej.
MINIMUM_SUPPORT
Określa minimalną liczbę przypadków, wymagane w celu atrybut do utworzenia klastra.

Wartość domyślna to 10.
MAXIMUM_SEQUENCE_STATES
Określa maksymalną liczbę sekwencji możliwe stany.

Ustawienie tej wartości na liczbę większą niż 100 może spowodować, że algorytm do tworzenia modeli, które nie oferuje istotnych informacji.

Wartość domyślna to 64.
MAXIMUM_STATES
Określa maksymalną liczbę stany dla atrybut nie sekwencji, który obsługuje algorytmu.Jeśli liczba stanów atrybut sekwencji nie jest większa niż maksymalna liczba stanów, algorytm używa atrybut najbardziej popularnych stanów i traktuje jako pozostałych stanów Missing.

Wartość domyślna to 100.

Modelowanie flagi

Obsługiwane są następujące flagi modelowania do użytku z Microsoft Algorytm klastrowanie sekwencji.

NIEDOZWOLONE WARTOŚCI NULL
Wskazuje, że kolumna nie może zawierać wartość null.Jeżeli usługi Analysis Services napotyka wartość null podczas szkolenia modelu, spowoduje błąd.

Stosuje się do kolumna struktura wyszukiwania.
MODEL_EXISTENCE_ONLY
Oznacza, że kolumna będą traktowane jako mające dwóch możliwych stanów: Missing i Existing. Wartość null jest traktowana jako Missing wartość.

Stosuje się do kolumna model wyszukiwania.

Aby uzyskać więcej informacji na temat używania wartości Brak w modelach wyszukiwania oraz w jaki sposób brakujące wartości mają wpływ na wyniki prawdopodobieństwa, zobacz Brak wartości (Analysis Services — wyszukiwanie danych).

Wymagania

przypadek tabela musi być uwzględniana kolumna identyfikator.Opcjonalnie przypadek tabela może zawierać innych kolumn, w których przechowywane są atrybuty dotyczące przypadek.

Algorytm Microsoft sekwencji klastrowanie wymaga sekwencji informacje przechowywane w tabela zagnieżdżonej.Tabela zagnieżdżona musi być pojedyncza kolumna sekwencję klawiszy.A Key Sequence kolumna może zawierać dowolny rodzaj danych, które mogą być posortowane, włącznie z typami danych ciąg znaków, ale w kolumnie muszą zawierać wartości unikatowe w każdym z przypadków. Ponadto przed przetwarzania modelu, należy się upewnić zarówno przypadek tabela, jak i w tabela zagnieżdżonej są sortowane w kolejności rosnącej klucz, który odnosi się w tabelach.

Uwaga

Utwórz model, który korzysta z algorytmu sekwencji firmy Microsoft, ale nie należy używać sekwencji kolumna, wynikowy modelu nie będzie zawierać wszystkie sekwencje, ale będą po prostu klastra przypadkach, na podstawie innych atrybutów, które znajdują się w modelu.

Dane wejściowe i uzyskania przewidywalnej kolumny

The Microsoft Sequence klastrowanie algorithm supports the specific input columns and predictable columns that are listed in the following tabela. Aby uzyskać więcej informacji na temat typów zawartości znaczenie w model wyszukiwania zobacz Typy zawartości (wyszukiwanie danych).

Kolumna	Typy zawartości
Atrybut wejściowy	Ciągłą sekwencję cykliczna, discrete, Discretized, klucz, klucz, tabela i Zamówione
Atrybut przewidywalne	Ciągłe, cykliczna, discrete, Discretized tabela, a zamówiona

Remarks

przewidywanie sekwencji, za pomocą PredictSequence (DMX) funkcja, jest dostępna tylko w SQL Server Flaga.
The Microsoft Sequence klastrowanie algorithm does not support using the Predictive Model Markup Language (PMML) to create mining models.
TheMicrosoft Sequence klastrowanie algorithm supports przeglądanie szczegółowe, the use of OLAP mining models, and the use of wyszukiwanie danych dimensions.

Udostępnij za pośrednictwem