Udostępnij za pośrednictwem


Mining Model Content for Sequence Clustering Models (Analysis Services - Data Mining)

W tym temacie opisano model wyszukiwania zawartości, która jest specyficzna dla modeli używających sekwencji Microsoft klastrowanie algorytmu.Aby uzyskać informacje ogólne i statystycznych terminologii odnoszących się do zawartości model wyszukiwania, które ma obowiązywać dla wszystkich typów modelu zobacz Mining Model Content (Analysis Services - Data Mining).

Opis struktury sekwencji klastrowanie w modelu

Sekwencja klastrowanie modelu ma jedno nadrzędnym (NODE_TYPE = 1), reprezentuje modelu i jego metadane.Węzeł nadrzędny, która nosi nazwę (Wszystkie), ma węzeł powiązanych sekwencji (NODE_TYPE = 13), wyświetla listę wszystkich wykrytych w danych szkolenia przejścia.

Structure of sequence clustering model

Algorytm tworzy również wiele klastrów, w zależności od przejścia, które zostały znalezione w danych i inne atrybuty wejściowego, uwzględniane podczas tworzenia modelu, takie jak kryteria demograficzne nabywcy, itd.Każdy klaster (NODE_TYPE = 5) zawiera własny węzeł sekwencji (NODE_TYPE = 13), wyświetla przejścia, które były używane do generowania tego konkretnego klastra.Z węzła sekwencji umożliwiają drążenie niedziałający można wyświetlać szczegóły poszczególnych stan przejścia (NODE_TYPE = 14).

Aby uzyskać wyjaśnienie sekwencji i przejścia do stanu, z przykładami zobacz Algorytm klastrowanie Microsoft sekwencji.

Model zawartości sekwencji klastrowanie w modelu

Ta sekcja zawiera dodatkowe informacje na temat kolumn w modelu zawartości wyszukiwania, które mają szczególne znaczenie dla sekwencji klastrowanie.

  • MODEL_CATALOG
    Nazwa bazy danych, w której przechowywane są w modelu.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Zawsze puste.

  • NAZWA_WĘZŁA
    Nazwa węzła.Obecnie taką samą wartość jak NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Unikatowa nazwa węzła.

  • NODE_TYPE
    Klastrowanie modelu sekwencji wyświetla następujące typy węzłów:

    ID typu węzła

    Description

    1 (Model)

    Węzeł główny dla modelu

    5 (Klastra)

    Zawiera liczbę przejść w klastrze, listę atrybutów i dane statystyczne, które opisują wartości w klastrze.

    13 (Sekwencja)

    Zawiera listę przejść w klastrze.

    14 (Przejście)

    Opisuje kolejność zdarzeń jako tabela, w której pierwszy wiersz zawiera stan początkowy, a wszystkie inne wiersze zawierają kolejnych stanów, wraz z pomocy technicznej i prawdopodobieństwo statystyk.

  • NODE_GUID
    Puste.

  • NODE_CAPTION
    Etykietę lub podpis skojarzonego z węzłem w celach wyświetlania.

    Można zmienić nazwę klastra podpisy podczas korzystania z modelu; jednak nowa nazwa nie jest zachowywane po zamknięciu modelu.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, który węzeł ma.

    Model główny   Liczebność wartość jest równa liczbie klastrów plus jeden.Aby uzyskać więcej informacji zobacz Relacja.

    Węzły klastra   Relacja jest zawsze 1, ponieważ każdy klaster zawiera węzeł podrzędność pojedynczego, która zawiera listę sekwencji w klastrze.

    Sekwencja węzłów    Liczebność wskazuje liczbę przejścia, które znajdują się w klastrze.Na przykład relacja węzła sekwencji dla katalogu głównego modelu pozwalają w całego modelu znaleziono liczbę przejść.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.

    Dla wszystkich węzłów poziom katalogu głównego, zwracana jest wartość NULL.

  • NODE_DESCRIPTION
    Działa tak samo jak podpis węzła.

  • NODE_RULE
    Zawsze puste.

  • MARGINAL_RULE
    Zawsze puste.

  • NODE_PROBABILITY
    Model główny   Zawsze 0.

    Węzły klastra    Skorygowana prawdopodobieństwo klastra w modelu.Skorygowana prawdopodobieństw nie zsumować 1, ponieważ klastrowanie metoda używana w sekwencji klastrowanie zezwala na częściowo członkostwa w wielu klastrach.

    Sekwencja węzłów   Zawsze 0.

    Węzły przejścia   Zawsze 0.

  • MARGINAL_PROBABILITY
    Model główny   Zawsze 0.

    Węzły klastra    Taką samą wartość jak NODE_PROBABILITY.

    Sekwencja węzłów   Zawsze 0.

    Węzły przejścia   Zawsze 0.

  • NODE_DISTRIBUTION
    Tabela zawierająca prawdopodobieństw i inne informacje.Aby uzyskać więcej informacji zobacz Tabela NODE_DISTRIBUTION.

  • NODE_SUPPORT
    Liczba przejścia, które obsługują ten węzeł.Dlatego w przypadku 30 przykłady sekwencja "Produkt A następuje produkt B" w danych szkolenia, całkowita obsługi wynosi 30.

    Model główny   Całkowita liczba przejścia w modelu.

    Węzły klastra    Obsługa RAW klastra, co oznacza liczbę przypadków szkolenia, tworzące spraw do tego klastra.

    Sekwencja węzłów   Zawsze 0.

    Węzły przejścia    Procent przypadków w klastrze, które reprezentują określone przejścia.Może być równa 0 lub może mieć wartość dodatnią.Obliczone przez pobranie raw obsługę węźle klastra i pomnożenie przez prawdopodobieństwo klastra.

    Od tej wartości można stwierdzić, ile przypadkach szkolenia przyczynić się do przejścia.

  • MSOLAP_MODEL_COLUMN
    Nie dotyczy.

  • MSOLAP_NODE_SCORE
    Nie dotyczy.

  • MSOLAP_NODE_SHORT_CAPTION
    Działa tak samo jak NODE_DESCRIPTION.

Opis sekwencje, Państwa i przejścia

Klastrowanie modelu sekwencji ma unikatowy strukturę, która łączy dwa rodzaje obiektów z bardzo różne rodzaje informacji: klastry są pierwszego i drugiego przejścia w stan.

Klastry, utworzony przez klastrowanie sekwencji są podobne do klastrów, utworzony przez algorytm klastrowania firmy Microsoft.Każdy klaster musi profilu i właściwości.Jednak w sekwencji klastrowanie, każdy klaster dodatkowo zawiera węzeł podrzędność jednego z listą sekwencji w klastrze.Każdy węzeł sekwencja zawiera wiele węzłów podrzędność, które opisują stan przejścia szczegółowo z nimi prawdopodobieństwa.

Istnieją prawie zawsze więcej sekwencji w modelu nie można znaleźć w każdym przypadek pojedynczego, ponieważ sekwencji może być powiązane ze sobą.Microsoft Analysis Services przechowuje łącza z jednego stanu do drugiego, dzięki czemu można policzyć ile razy ma miejsce każdego przejścia.Można również znaleźć informacje o ile razy wystąpił sekwencji i zmierzyć prawdopodobieństwo jego występujących w porównaniu do całego zestaw stanów obserwowanych.

Poniższa tabela zawiera podsumowanie, jak informacje są przechowywane w modelu i w jaki sposób są powiązane węzłów.

Węzeł

Zawiera węzeł podrzędność

Tabela NODE_DISTRIBUTION

Model główny

Wiele węzłów klastra

Węzeł z sekwencji dla całego modelu

Wyświetla listę wszystkich produktów w modelu z pomocy technicznej i prawdopodobieństwa.

Ponieważ klastrowanie metoda pozwala na częściowe członkostwa w wielu klastrów, obsługa i prawdopodobieństwo może mieć wartości ułamkowej.Oznacza to zamiast zliczyć przypadek jeden raz, każdorazowo może potencjalnie należeć do wielu klastrów.W związku z tym kiedy członkostwa klastra końcowego jest określona, wartość jest korygowana o prawdopodobieństwo tego klastra.

Węzeł sekwencji dla modelu

Wiele węzłów przejścia

Wyświetla listę wszystkich produktów w modelu z pomocy technicznej i prawdopodobieństwa.

Ponieważ wiadomo o numer sekwencji dla modelu, na tym poziomie obliczenia obsługę i prawdopodobieństwo są proste:

  • Obsługa = liczba spraw

  • Prawdopodobieństwo = raw prawdopodobieństwo każdej sekwencji w modelu.Wszystkie prawdopodobieństw należy zsumować 1.

Poszczególnych węzłach klastra

Węzeł z sekwencji dla tego klastra tylko

Wyświetla listę wszystkich produktów w klastrze, ale zapewnia obsługę i prawdopodobieństwo wartości tylko dla produktów, które są charakterystyczne dla klastra.

Obsługa reprezentuje wartość dostosowaną pomocy technicznej w każdym przypadek w tym klastrze.Prawdopodobieństwo wartości są dostosowane prawdopodobieństwa.

Sekwencja węzłów dla poszczególnych klastrów

Wiele węzłów o przejścia sekwencji w klastrze tylko

Dokładnie te same informacje jak w poszczególnych węzłach klastra.

Przejścia

Nie elementów podrzędnych

Zawiera listę przejść dla pokrewnych pierwszym stanie.

Wartość skorygowana pomocy technicznej, wskazując sprawy, które uczestniczą w każdym okresie przejściowym jest pomocy technicznej.Prawdopodobieństwo jest prawdopodobieństwo skorygowany, reprezentowany jako wartość procentowa.

Tabela NODE_DISTRIBUTION

Tabela NODE_DISTRIBUTION zawiera szczegółowe informacje prawdopodobieństwa i pomocy technicznej dla przejścia i sekwencje dla konkretnego klastra.

Wiersz jest zawsze dodawana do tabela przejścia do reprezentowania możliwości Missing wartości. Aby uzyskać informacje, co Missing wartość oznacza i jak wpływa na obliczenia, zobacz Brak wartości (Analysis Services — wyszukiwanie danych).

Obliczenia dotyczące pomocy technicznej i prawdopodobieństwo różnią się zależnie od tego, czy przy obliczaniu dotyczy przypadkach szkolenia lub gotowego modelu.Dzieje się tak, ponieważ domyślne klastrowanie metoda Maximization oczekiwania (EM), zakłada się, że wszystkie przypadek mogą należeć do więcej niż jeden klaster.Przy obliczaniu obsługę przypadki, w modelu, jest możliwe za pomocą Liczniki nieprzetworzone i prawdopodobieństw raw.Jednak prawdopodobieństw dla każdej określonej sekwencji w klastrze musi ważone przez sumę wszystkich możliwych sekwencji i kombinacje klastra.

Relacja

W modelu klastrów relacja węzeł nadrzędny na ogół informuje liczbę klastrów są w modelu.Jednak sekwencji klastrowanie model zawiera dwa rodzaje węzłów poziom klastra: jeden z rodzajów węzeł zawiera klastrów i innego typu węzła znajduje się lista sekwencji dla modelu jako całości.

W związku z tym aby dowiedzieć się, liczba klastrów w modelu, możesz pobrać wartości NODE_CARDINALITY dla węzła (wszystkie) i odjąć jedną.Na przykład jeśli model utworzony 9 klastrów, kardynalności modelu głównego wynosi 10.Dzieje się tak, ponieważ model zawiera 9 węzłów klastra, z których każda ze swoich własnych węzłów sekwencji plus jeden węzeł dodatkowych sekwencji klastra 10, co stanowi sekwencji dla modelu o etykiecie.

Przewodnik struktura

Przykładem mogą pomóc w wyjaśnienie, jak informacje są przechowywane i w jaki sposób użytkownik może zinterpretować go.Na przykład można znaleźć największą zamówienia, co oznacza najdłuższy łańcucha obserwowanego z danych źródłowych AdventureWorksDW za pomocą następującej kwerendy:

USE AdventureWorksDW
SELECT DISTINCT OrderNumber, Count(*)
FROM vAssocSeqLineItems
GROUP BY OrderNumber
ORDER BY Count(*) DESC

Z tych wyniki okaże się, że numery zleceń "SO72656", 'SO58845' i 'SO70714' zawierają największą sekwencji, z ośmiu elementów.Za pomocą identyfikatorów zamówienia, można wyświetlić szczegółowe informacje o określonej kolejności, aby zobaczyć elementy, które zostały zakupione i w jakiej kolejności.

OrderNumber

LineNumber

Model

SO58845

1

Rower górski 500

SO58845

2

LL Mountain Tire

SO58845

3

Mountain Tire Tube

SO58845

4

Fender Set - Mountain

SO58845

5

Mountain Bottle Cage

SO58845

6

Butli wody

SO58845

7

Sport-100

SO58845

8

Tuleja długo Logo Jersey

Jednak niektórzy klienci, którzy zakupu Mountain-500 może kupić różnych produktów.Można wyświetlić wszystkich produktów, które należy wykonać Mountain-500, wyświetlając na liście sekwencji w modelu.Poniższe procedury zaprezentuje poprzez przeglądanie tych sekwencji za pomocą dwóch osobom przeglądającym w Analysis Services:

Aby wyświetlić powiązane sekwencje przy użyciu przeglądarki klastrowanie w sekwencji

  1. W Eksploratorze obiektów kliknij prawym przyciskiem myszy model [sekwencji klastrowanie i wybierz polecenie Przeglądaj.

  2. W podglądzie klastrowanie w sekwencji kliknij Stan przejścia tab.

  3. W Klaster listy rozwijanej listy, upewnij się, że zapełnianie (wszystkie) jest zaznaczone.

  4. Przesuń suwak w lewym okienku, do góry, aby wyświetlić wszystkie łącza.

  5. Zlokalizuj na diagramie Górski-500, a następnie kliknij przycisk w węźle na diagramie.

  6. Wyróżnione wiersze polecenie następnego stanów (produkty, które zostały zakupione od Mountain-500) i liczby wskazują prawdopodobieństwa.Porównaj te wyniki w modelu rodzajowego Podgląd zawartości.

Aby wyświetlić powiązanych sekwencji przy użyciu przeglądarki zawartości modelu rodzajowego

  1. W Eksploratorze obiektów kliknij prawym przyciskiem myszy model [sekwencji klastrowanie i wybierz polecenie Przeglądaj.

  2. Na liście rozwijanej przeglądarki wybierz Podgląd zawartości drzewa rodzajowa firmy Microsoft.

  3. W Podpis węzła okienko, kliknij węzeł o nazwie Poziom sekwencji dla klastra 16.

  4. W okienku szczegółów węzła znaleźć NODE_DISTRIBUTION wiersz, a następnie kliknij w dowolnym miejscu w tabela zagnieżdżonej.

    Górny wiersz jest zawsze wartość Brak.Ten wiersz jest sekwencja stanu 0.

  5. Naciśnij klawisz strzałki niedziałający lub za pomocą pasków przewijania, aby przesuwać niedziałający tabela zagnieżdżonej aż do momentu wyświetlenia wiersza Mountain-500.

    Ten wiersz jest sekwencja stanu 20.

    Uwaga

    Numer wiersza dla stanu określonej sekwencji można uzyskać programowo, ale jeśli właśnie przeglądasz, może być łatwiejsze po prostu skopiować tabela zagnieżdżonej do skoroszyt programu Excel.

  6. Powrócić do okienka podpis węzła, a następnie rozwiń węzeł, Poziom sekwencji dla klastra 16, jeśli nie jest już rozwinięte.

  7. Wygląd między jego węzły podrzędność dla Wiersz przejścia do stanu sekwencji 20.Kliknij węzeł przejścia.

  8. Tabela zagnieżdżona NODE_DISTRIBUTION zawiera następujące produkty i nimi prawdopodobieństwa.Porównaj je z wyniki Przejście stanu karcie podglądu klastrowanie w sekwencji.

W poniższej tabela przedstawiono wyniki z tabela NODE_DISTRIBUTION wraz z wartości zaokrąglonych prawdopodobieństwo, które są wyświetlane w podglądzie graficznego.

Produkt

Pomoc techniczna (NODE_DISTRIBUTION tabela)

Tabela prawdopodobieństwa (NODE_DISTRIBUTION))

Prawdopodobieństwo (z wykresu)

Brak

48.447887

0.138028169

(niewidoczne)

Cykliczne wielkich liter

10.876056

0.030985915

0.03

Fender Set - Mountain

80.087324

0.228169014

0.23

Rękawice pół Finger

0.9887324

0.002816901

0.00

Plecak dodatkiem Service Pack

0.9887324

0.002816901

0.00

LL Mountain Tire

51.414085

0.146478873

0.15

Tuleja długo Logo Jersey

2.9661972

0.008450704

0.01

Mountain Bottle Cage

87.997183

0.250704225

0.25

Mountain Tire Tube

16.808451

0.047887324

0.05

Tuleja krótkich klasyczny Jersey

10.876056

0.030985915

0.03

Sport-100

20.76338

0.05915493

0.06

Butli wody

18.785915

0.053521127

0.25

Mimo że sprawę, którą pierwotnie Wybraliśmy danych szkolenia zawarte produktu "Mountain-500"następuje 'LL Mountain Tire", można wyświetlić ma wiele innych możliwych sekwencji.Aby uzyskać szczegółowe informacje dla żadnego określonego klastra, należy powtórzyć proces drążenia na liście sekwencji w klastrze do rzeczywistego przejścia dla każdego stanu lub produktu.

Można przechodzić z jednego określonego klastra, do wiersza przejścia na liście sekwencji.Z tego wiersza przejścia ustalić, który produkt jest następny i przejść do tego produktu na liście sekwencji.Powtarzając ten proces dla każdego stanu w pierwszym i drugim może pracować przy użyciu długich łańcuchów stanów.

Korzystanie z narzędzia informacje o sekwencji

Zwykłego scenariusza dla sekwencji klastrowanie jest do śledzenia kliknięć użytkownika witryna sieci Web.Na przykład jeżeli dane rekordów zakupów nabywcy witryna sieci Web firmy Adventure Works e-commerce, wynikowy sekwencji, klastrowanie modelu mogą służyć do wywnioskować działanie użytkownika, na wprowadzanie zmian w projekcie witryny handlu elektronicznego do rozwiązywania problemów z nawigacji lub promocji sprzedaży.

Na przykład analiza może pokazać, użytkownicy zawsze wykonać łańcuch określonych produktów, bez względu na kryteria demograficzne.Ponadto może się okazać, że użytkownicy często zakończyć w witrynie po kliknięciu przycisku na dany produkt.Ze względu na to, że wyszukiwanie, może zwrócić się jakie dodatkowe ścieżki może dostarczać do użytkowników, które mogłyby wywoływać użytkowników, aby pozostać witryna sieci Web.

Jeśli nie ma dodatkowych informacji w klasyfikacji użytkowników, następnie po prostu umożliwia informacji sekwencji zbierać dane dotyczące nawigacji, aby lepiej zrozumieć ogólnego zachowania.Jednak jeśli zbierania informacji o klientach i odpowiada tej informacji w bazie danych klientów, można połączyć możliwości klastrowanie z przewidywanie na sekwencji zalecenia, które są dostosowane do użytkownika lub prawdopodobnie na podstawie ścieżka nawigacji do bieżącej strona.

Innym korzystanie z wyczerpujące informacje stanu i przejścia opracowane przez klastrowanie modelu sekwencji jest do określania, które ścieżki możliwe nigdy nie są używane.Na przykład jeśli jest wiele osób odwiedzających, przechodząc do strona 1-4, ale osoby odwiedzające nigdy nie przejdź do strona 5, może się zbadać, czy występują problemy, które uniemożliwiają nawigacji do strona 5.Można to zrobić podczas badania zawartości modelu i porównanie listą możliwych ścieżek.Wykresy sprawdzić wszystkie ścieżki nawigacyjne witryna sieci Web mogą być tworzone programowo lub przy użyciu różnych narzędzi do analizy witryny.

Aby uzyskać informacje dotyczące sposobu uzyskiwania listy ścieżek obserwowanych za pomocą kwerend wysyłanych do zawartości modelu i aby zobaczyć inne przykłady kwerend w sekwencji modelu klastra, zobacz Podczas badania sekwencji klastrowanie w modelu (Analysis Services — wyszukiwanie danych).