Udostępnij za pośrednictwem


model wyszukiwania Zawartości dla Naive modele Bayes (Analysis Services — wyszukiwanie danych)

W tym temacie opisano model wyszukiwania zawartość, która jest specyficzna dla modeli których używane są Microsoft Algorytm Bayes naive. Wyjaśnienie, jak interpretować dane statystyczne i struktury wspólne dla wszystkich typów modeli i ogólne definicje pojęć związanych z model wyszukiwania zawartości, zobacz temat Mining Model Content (Analysis Services - Data Mining).

Opis struktury modelu Bayes Naive

Model Naive Bayes ma węzeł pojedynczego obiektu nadrzędnego, który reprezentuje modelu i jej metadane i dole, po obiekcie nadrzędnym węźle dowolną liczbę niezależnych drzew, reprezentujące przewidywalne atrybutów, które wybrano.Oprócz drzewa dla atrybutów, każdy model zawiera jeden węzeł marginalna statystyk (NODE_TYPE = 26), która zapewnia opisowy statystyki dotyczące zestaw przypadków szkolenia.Aby uzyskać więcej informacji zobacz Informacje zawarte w węźle Marginal statystyki.

Dla każdego atrybut przewidywalny i wartość model wyprowadza drzewa, który zawiera informacje opisujące, w jaki sposób wprowadzania różnych kolumn wpływa na wynik to określonego przewidywalne.Każdego drzewa zawiera atrybut przewidywalny a jego wartością (NODE_TYPE = 9), a następnie szereg węzłów, które reprezentują wejściowy atrybuty (NODE_TYPE = 10).Ponieważ wejściowe atrybuty zwykle ma wiele wartości, każda wprowadzania atrybut (NODE_TYPE = 10) mogą mieć wiele węzłów podrzędność (NODE_TYPE = 11), dla określonego stanu atrybut.

Uwaga

Ponieważ model Naive Bayes nie zezwala na typy danych ciągłych, wszystkie wartości z kolumn danych wejściowych są traktowane jako discrete lub discretized.Można określić, w jaki sposób discretized wartość.Aby uzyskać więcej informacji, Jak Zmienianie Discretization kolumna w model wyszukiwania.

structure of model content for naive bayes

Model zawartości Naive modelu Bayes

W tej części podano szczegółowe i przykłady tylko dla tych kolumn w modelu zawartości wyszukiwania, które mają szczególne znaczenie w przypadku modeli Naive Bayes.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumny schematu zestaw wierszy, takie jak MODEL_CATALOG i MODEL_NAME, nie opisano w tym miejscu, lub objaśnienia model wyszukiwania terminologii zobacz Mining Model Content (Analysis Services - Data Mining).

  • MODEL_CATALOG
    Nazwa bazy danych, w której przechowywane są w modelu.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Nazwy atrybutów, które odpowiadają tym węźle.

    Model główny   Nazwa atrybut przewidywalne.

Marginalna statystyk Nie dotyczy

**Atrybut przewidywalne**   Nazwa atrybutu przewidywalne.

**Atrybut wejściowy**   Nazwa atrybutu wejściowego.

**Stan wejściowego atrybutu**    Nazwa tylko atrybut wejściowy.Aby uzyskać stan, należy użyć MSOLAP\_NODE\_SHORT\_CAPTION.
  • NAZWA_WĘZŁA
    Nazwa węzła.

    Kolumna ta zawiera taką samą wartość jak NODE_UNIQUE_NAME.

    Aby uzyskać więcej informacji o konwencjach nazewnictwa węzła zobacz Za pomocą nazwy węzłów i identyfikatory.

  • NODE_UNIQUE_NAME
    Unikatowa nazwa węzła.Unikatowe nazwy są przypisywane zgodnie z Konwencją, który zawiera informacje o relacjach między węzłami.Aby uzyskać więcej informacji o konwencjach nazewnictwa węzła zobacz Za pomocą nazwy węzłów i identyfikatory.

  • NODE_TYPE
    Model Naive Bayes wyświetla następujące typy węzłów:

    ID typu węzła

    Description

    26 (NaiveBayesMarginalStatNode)

    Zawiera statystyki, opisujące całego zestaw przypadków szkoleń dla modelu.

    9 (Atrybut przewidywalne)

    Zawiera nazwę przewidywalne atrybut.

    10 (Atrybut danych wejściowych)

    Zawiera nazwy kolumną atrybut wejściowy i węzły podrzędność, która zawiera wartości dla atrybutu.

    11 (Stan atrybut danych wejściowych)

    Zawiera wartości lub discretized wartości wszystkich danych wejściowych atrybut, które zostały skojarzone z atrybut określonych danych wyjściowych.

  • NODE_CAPTION
    Etykieta lub podpis skojarzonego z węzłem.Ta właściwość jest głównie w celach wyświetlania.

    Model główny   blank

Marginalna statystyk blank

**Atrybut przewidywalne**   Nazwa atrybutu przewidywalne.

**Atrybut wejściowy**   Nazwa atrybutu przewidywalny i bieżący atrybut wejściowy.Ex:

Rower kupujących-\> Okres ważności

**Stan wejściowego atrybutu**   Nazwa atrybutu przewidywalny i bieżący atrybut wejściowy plus wartość wejściowa.Ex:

Rower kupujących-\> Wiek = Brak
  • CHILDREN_CARDINALITY
    Liczba dzieci, który węzeł ma.

    Model główny   Liczba przewidywalne atrybutów w modelu plus 1 dla węzła marginalna statystyki.

Marginalna statystyk Z definicji nie ma elementów podrzędnych.

Atrybut przewidywalne Liczba wejściowy atrybutów, które były związane z bieżącego atrybutu przewidywalne.

**Atrybut wejściowy**   Liczba wartości discrete lub discretized dla bieżącego atrybutu wejściowego.

**Stan wejściowego atrybut**   Zawsze 0.
  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.Aby uzyskać więcej informacji dotyczących węzłów nadrzędnych i podrzędność zobacz Za pomocą nazwy węzłów i identyfikatory.

  • NODE_DESCRIPTION
    Taka sama, jak podpis węzła.

  • NODE_RULE
    Reprezentacji XML podpis węzła.

  • MARGINAL_RULE
    Taka sama, jak reguły węzła.

  • NODE_PROBABILITY
    Prawdopodobieństwo związane z tym węźle.

    Model główny   Zawsze 0.

Marginalna statystyk Zawsze 0.

Atrybut przewidywalne Zawsze 1.

**Atrybut wejściowy**   Zawsze 1.

**Stan wejściowego atrybut**   Liczba dziesiętna, reprezentującą bieżącą wartość prawdopodobieństwa.Wartości dla wszystkich stanów atrybut wejściowych w obszarze sumy nadrzędnego atrybut wejściowy węzła 1.
  • MARGINAL_PROBABILITY
    Taka sama, jak prawdopodobieństwo węzła.

  • NODE_DISTRIBUTION
    Tabela zawierająca histogramu prawdopodobieństwa dla węzła.Aby uzyskać więcej informacji zobacz Tabela NODE_DISTRIBUTION.

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.

    Model główny    Liczba wszystkich przypadkach danych szkoleniowych.

Marginalna statystyk Zawsze 0.

Atrybut przewidywalne Liczba wszystkich przypadkach danych szkoleniowych.

**Atrybut wejściowy**   Liczba wszystkich przypadkach danych szkoleniowych.

**Stan wejściowego atrybut**   Liczba przypadków danych szkoleniowych, które zawierają tylko wartość określonego.
  • MSOLAP_MODEL_COLUMN
    Etykiety używane w celach wyświetlania.Zwykle taka sama, jak ATTRIBUTE_NAME.

  • MSOLAP_NODE_SCORE
    Reprezentuje znaczenie atrybut lub wartość w ramach modelu.

    Model główny   Zawsze 0.

Marginalna statystyk Zawsze 0.

Atrybut przewidywalne Zawsze 0.

**Atrybut wejściowy**   Wynik interestingness dla bieżącego atrybutu wejściowych w stosunku do bieżącego atrybutu przewidywalne.

**Stan wejściowego atrybut**   Zawsze 0.
  • MSOLAP_NODE_SHORT_CAPTION
    Ciąg tekstowy, który reprezentuje nazwę lub wartość kolumna.

    Model główny    Puste

Marginal statistics Blank

**Atrybut przewidywalne**   Nazwa atrybutu przewidywalne.

**Atrybut wejściowy**   Nazwa atrybutu wejściowego.

**Stan wejściowego atrybut**   Wartość lub discretized wartość atrybut wejściowego.

Za pomocą nazwy węzłów i identyfikatory

Nadawanie nazw węzłów w modelu Naive Bayes zawiera dodatkowe informacje na temat typu węzła, aby ułatwić zrozumienie relacje między informacji w modelu.W poniższej tabela przedstawiono Konwencji dla identyfikatorów, które są przypisane do innego węzła typu.

Typ węzła

Konwencja identyfikator węzła

Model główny (1)

Zawsze 0.

Marginalna statystyki węzła (26)

Wartość IDENTYFIKATORA dowolnego.

Atrybut przewidywalne (9)

Liczba szesnastkowa, począwszy od 10 000 000

Przykład: 100000001 10000000b

Atrybut wejściowy (10)

Dwuczęściową liczba szesnastkowa, gdzie pierwsza część jest zawsze 20000000, a druga część rozpoczyna się od szesnastkowy identyfikator powiązanego przewidywalne atrybut.

Przykład: 20000000b00000000

W takim przypadek powiązanych atrybut przewidywalne jest 10000000b.

Stan wejściowego atrybut (11)

Trzy części liczby szesnastkowej w przypadku gdy pierwsza część jest zawsze 30000000, druga część zaczyna się od szesnastkowy identyfikator powiązanego atrybut przewidywalny i trzecia część reprezentuje identyfikator wartości.

Przykład: 30000000b00000000200000000

W takim przypadek powiązanych atrybut przewidywalne jest 10000000b.

Identyfikatory służy do powiązania wejściowego atrybut i Stany przewidywalne atrybut.Na przykład poniższa kwerenda zwraca nazwy i podpisy dla węzłów, które reprezentują możliwych kombinacji wejściowych i przewidywalny atrybutów dla modelu, TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Oczekiwane wyniki:

NAZWA_WĘZŁA

NODE_CAPTION

20000000000000001

Rower kupujących-> Commute odległość

20000000000000002

Rower kupujących-> Angielski edukacja

20000000000000003

Rower kupujących-> Angielski, zawód

20000000000000009

Rower kupujących-> Stan cywilny

2 000 000 000 000 000a

Rower kupujących-> Liczba dzieci w Główny

2000000000000000b

Rower kupujących-> Region

2000000000000000c

Rower kupujących-> Całkowita elementy podrzędne

Można użyć nazwy węzłów nadrzędnych do pobierania węzły podrzędność.Następująca kwerenda pobiera węzłów, które zawierają wartości Marital Status atrybut wraz z prawdopodobieństwem każdego węzła.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

Uwaga

Nazwa kolumna, PARENT_UNIQUE_NAME, muszą być ujęte w nawiasy, aby odróżnić go od zarezerwowanym słowem kluczowym o takiej samej nazwie.

Oczekiwane wyniki:

NAZWA_WĘZŁA

NODE_CAPTION

NODE_PROBABILITY

3000000000000000900000000

Rower kupujących-> Stan cywilny = Brak

0

3000000000000000900000001

Rower kupujących-> Stan cywilny = S

0.457504004

3000000000000000900000002

Rower kupujących-> Stan cywilny = M

0.542495996

Tabela NODE_DISTRIBUTION

kolumna tabela zagnieżdżonej, NODE_DISTRIBUTION, zazwyczaj zawiera statystyki dotyczące występowania wartości w węźle.W modelu Naive Bayes ta tabela jest wypełniana tylko dla następujących węzłów:

Typ węzła

Zawartość tabela zagnieżdżonej

Model główny (1)

Puste.

Marginalna statystyki węzła (24)

Zawiera informacje podsumowujące dla wszystkich przewidywalne atrybutów i wprowadzania atrybutów dla całego zestaw danych szkoleniowych.

Atrybut przewidywalne (9)

Puste.

Atrybut wejściowy (10)

Puste.

Stan wejściowego atrybut (11)

Statystyki, opisujące rozkład wartości w danych szkoleniowych dla danej kombinacji przewidywalne wartość i dane wejściowe zawiera wartość atrybut.

Węzeł ID lub podpisy węzła umożliwia pobranie rosnące poziomy szczegółów.Na przykład poniższa kwerenda pobiera określonych kolumn z tabela NODE_DISTRIBUTION tylko tych węzłów atrybut wejściowe związane z wartości, 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Oczekiwane wyniki:

NODE_CAPTION

t.ATTRIBUTE_NAME

t.ATTRIBUTE_VALUE

t.SUPPORT

t.PROBABILITY

t.VALUETYPE

Rower kupujących-> Stan cywilny = S

Rower kupujących

Brak

0

0

1

Rower kupujących-> Stan cywilny = S

Rower kupujących

0

3783

0.472934117

4

Rower kupujących-> Stan cywilny = S

Rower kupujących

1

4216

0.527065883

4

W tych wyniki wartości kolumna SUPPORT informuje liczba klienci z określonego stanu cywilnego zakupionych rowerów.kolumna prawdopodobieństwo znajduje się prawdopodobieństwo każda wartość atrybut obliczona tylko tym węźle.Aby uzyskać ogólne definicje terminów użytych w tabela NODE_DISTRIBUTION zobacz Mining Model Content (Analysis Services - Data Mining).

Informacje zawarte w węźle Marginal statystyki

W modelu Naive Bayes tabela zagnieżdżonej dla węzła marginalna statystyki zawiera rozkład wartości dla całego zbioru danych szkoleniowych.Na przykład poniższa tabela zawiera częściową listę statystyk w tabeli zagnieżdżonej NODE_DISTRIBUTION modelu TM_NaiveBayes:

ATTRIBUTE_NAME

ATTRIBUTE_VALUE

POMOC TECHNICZNA

PRAWDOPODOBIEŃSTWO

ODCHYLENIE

WARTOŚCI

Rower kupujących

Brak

0

0

0

1

Rower kupujących

0

8869

0.507263784

0

4

Rower kupujących

1

8615

0.492736216

0

4

Stan cywilny

Brak

0

0

0

1

Stan cywilny

S

7999

0.457504004

0

4

Stan cywilny

M

9485

0.542495996

0

4

Całkowita elementy podrzędne

Brak

0

0

0

1

Całkowita elementy podrzędne

0

4865

0.278254404

0

4

Całkowita elementy podrzędne

3

2093

0.119709449

0

4

Całkowita elementy podrzędne

1

3406

0.19480668

0

4

The Bike Buyer kolumna is included because the marginal statistics node always contains a description of the predictable atrybut and its possible values. Wszystkie pozostałe kolumny są wyświetlane reprezentuje atrybuty wejściowego, wraz z wartościami, które były używane w modelu.Wartości można tylko brakujące, discrete lub discretized.

W modelu Naive Bayes, może być bez ciągłego atrybutów, więc wszystkie dane liczbowe jest reprezentowana jako discrete (VALUE_TYPE = 4) lub discretized (VALUE_TYPE = 5).

A Missing wartość (VALUE_TYPE = 1) jest dodawana do każdej wejściowe i wyjściowe atrybut do reprezentowania potencjalnych wartości, które nie były obecne w danych szkoleniowych. Należy uważać, aby odróżnić "Brak", jak ciąg znaków i domyślny Missing wartość. Aby uzyskać więcej informacji zobaczBrak wartości (Analysis Services — wyszukiwanie danych).