Artykuł
05/11/2010

model wyszukiwania Zawartości dla Naive modele Bayes (Analysis Services — wyszukiwanie danych)

W tym temacie opisano model wyszukiwania zawartość, która jest specyficzna dla modeli których używane są Microsoft Algorytm Bayes naive. Wyjaśnienie, jak interpretować dane statystyczne i struktury wspólne dla wszystkich typów modeli i ogólne definicje pojęć związanych z model wyszukiwania zawartości, zobacz temat Mining Model Content (Analysis Services - Data Mining).

Opis struktury modelu Bayes Naive

Model Naive Bayes ma węzeł pojedynczego obiektu nadrzędnego, który reprezentuje modelu i jej metadane i dole, po obiekcie nadrzędnym węźle dowolną liczbę niezależnych drzew, reprezentujące przewidywalne atrybutów, które wybrano.Oprócz drzewa dla atrybutów, każdy model zawiera jeden węzeł marginalna statystyk (NODE_TYPE = 26), która zapewnia opisowy statystyki dotyczące zestaw przypadków szkolenia.Aby uzyskać więcej informacji zobacz Informacje zawarte w węźle Marginal statystyki.

Dla każdego atrybut przewidywalny i wartość model wyprowadza drzewa, który zawiera informacje opisujące, w jaki sposób wprowadzania różnych kolumn wpływa na wynik to określonego przewidywalne.Każdego drzewa zawiera atrybut przewidywalny a jego wartością (NODE_TYPE = 9), a następnie szereg węzłów, które reprezentują wejściowy atrybuty (NODE_TYPE = 10).Ponieważ wejściowe atrybuty zwykle ma wiele wartości, każda wprowadzania atrybut (NODE_TYPE = 10) mogą mieć wiele węzłów podrzędność (NODE_TYPE = 11), dla określonego stanu atrybut.

Uwaga

Ponieważ model Naive Bayes nie zezwala na typy danych ciągłych, wszystkie wartości z kolumn danych wejściowych są traktowane jako discrete lub discretized.Można określić, w jaki sposób discretized wartość.Aby uzyskać więcej informacji, Jak Zmienianie Discretization kolumna w model wyszukiwania.

structure of model content for naive bayes

Model zawartości Naive modelu Bayes

W tej części podano szczegółowe i przykłady tylko dla tych kolumn w modelu zawartości wyszukiwania, które mają szczególne znaczenie w przypadku modeli Naive Bayes.

Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumny schematu zestaw wierszy, takie jak MODEL_CATALOG i MODEL_NAME, nie opisano w tym miejscu, lub objaśnienia model wyszukiwania terminologii zobacz Mining Model Content (Analysis Services - Data Mining).

MODEL_CATALOG
Nazwa bazy danych, w której przechowywane są w modelu.
NAZWA_MODELU
Nazwa modelu.
ATTRIBUTE_NAME
Nazwy atrybutów, które odpowiadają tym węźle.

Model główny Nazwa atrybut przewidywalne.

Marginalna statystyk Nie dotyczy

**Atrybut przewidywalne**   Nazwa atrybutu przewidywalne.

**Atrybut wejściowy**   Nazwa atrybutu wejściowego.

**Stan wejściowego atrybutu**    Nazwa tylko atrybut wejściowy.Aby uzyskać stan, należy użyć MSOLAP\_NODE\_SHORT\_CAPTION.

NAZWA_WĘZŁA
Nazwa węzła.

Kolumna ta zawiera taką samą wartość jak NODE_UNIQUE_NAME.

Aby uzyskać więcej informacji o konwencjach nazewnictwa węzła zobacz Za pomocą nazwy węzłów i identyfikatory.
NODE_UNIQUE_NAME
Unikatowa nazwa węzła.Unikatowe nazwy są przypisywane zgodnie z Konwencją, który zawiera informacje o relacjach między węzłami.Aby uzyskać więcej informacji o konwencjach nazewnictwa węzła zobacz Za pomocą nazwy węzłów i identyfikatory.

NODE_TYPE
Model Naive Bayes wyświetla następujące typy węzłów:

ID typu węzła	Description
26 (NaiveBayesMarginalStatNode)	Zawiera statystyki, opisujące całego zestaw przypadków szkoleń dla modelu.
9 (Atrybut przewidywalne)	Zawiera nazwę przewidywalne atrybut.
10 (Atrybut danych wejściowych)	Zawiera nazwy kolumną atrybut wejściowy i węzły podrzędność, która zawiera wartości dla atrybutu.
11 (Stan atrybut danych wejściowych)	Zawiera wartości lub discretized wartości wszystkich danych wejściowych atrybut, które zostały skojarzone z atrybut określonych danych wyjściowych.

NODE_CAPTION
Etykieta lub podpis skojarzonego z węzłem.Ta właściwość jest głównie w celach wyświetlania.

Model główny blank

Marginalna statystyk blank

**Atrybut przewidywalne**   Nazwa atrybutu przewidywalne.

**Atrybut wejściowy**   Nazwa atrybutu przewidywalny i bieżący atrybut wejściowy.Ex:

Rower kupujących-\> Okres ważności

**Stan wejściowego atrybutu**   Nazwa atrybutu przewidywalny i bieżący atrybut wejściowy plus wartość wejściowa.Ex:

Rower kupujących-\> Wiek = Brak

CHILDREN_CARDINALITY
Liczba dzieci, który węzeł ma.

Model główny Liczba przewidywalne atrybutów w modelu plus 1 dla węzła marginalna statystyki.

Marginalna statystyk Z definicji nie ma elementów podrzędnych.

Atrybut przewidywalne Liczba wejściowy atrybutów, które były związane z bieżącego atrybutu przewidywalne.

**Atrybut wejściowy**   Liczba wartości discrete lub discretized dla bieżącego atrybutu wejściowego.

**Stan wejściowego atrybut**   Zawsze 0.

PARENT_UNIQUE_NAME
Unikatowa nazwa węzła nadrzędnego.Aby uzyskać więcej informacji dotyczących węzłów nadrzędnych i podrzędność zobacz Za pomocą nazwy węzłów i identyfikatory.
NODE_DESCRIPTION
Taka sama, jak podpis węzła.
NODE_RULE
Reprezentacji XML podpis węzła.
MARGINAL_RULE
Taka sama, jak reguły węzła.
NODE_PROBABILITY
Prawdopodobieństwo związane z tym węźle.

Model główny Zawsze 0.

Marginalna statystyk Zawsze 0.

Atrybut przewidywalne Zawsze 1.

**Atrybut wejściowy**   Zawsze 1.

**Stan wejściowego atrybut**   Liczba dziesiętna, reprezentującą bieżącą wartość prawdopodobieństwa.Wartości dla wszystkich stanów atrybut wejściowych w obszarze sumy nadrzędnego atrybut wejściowy węzła 1.

MARGINAL_PROBABILITY
Taka sama, jak prawdopodobieństwo węzła.
NODE_DISTRIBUTION
Tabela zawierająca histogramu prawdopodobieństwa dla węzła.Aby uzyskać więcej informacji zobacz Tabela NODE_DISTRIBUTION.
NODE_SUPPORT
Liczba przypadków, które obsługują ten węzeł.

Model główny Liczba wszystkich przypadkach danych szkoleniowych.

Marginalna statystyk Zawsze 0.

Atrybut przewidywalne Liczba wszystkich przypadkach danych szkoleniowych.

**Atrybut wejściowy**   Liczba wszystkich przypadkach danych szkoleniowych.

**Stan wejściowego atrybut**   Liczba przypadków danych szkoleniowych, które zawierają tylko wartość określonego.

MSOLAP_MODEL_COLUMN
Etykiety używane w celach wyświetlania.Zwykle taka sama, jak ATTRIBUTE_NAME.
MSOLAP_NODE_SCORE
Reprezentuje znaczenie atrybut lub wartość w ramach modelu.

Model główny Zawsze 0.

Marginalna statystyk Zawsze 0.

Atrybut przewidywalne Zawsze 0.

**Atrybut wejściowy**   Wynik interestingness dla bieżącego atrybutu wejściowych w stosunku do bieżącego atrybutu przewidywalne.

**Stan wejściowego atrybut**   Zawsze 0.

MSOLAP_NODE_SHORT_CAPTION
Ciąg tekstowy, który reprezentuje nazwę lub wartość kolumna.

Model główny Puste

Marginal statistics Blank

**Atrybut przewidywalne**   Nazwa atrybutu przewidywalne.

**Atrybut wejściowy**   Nazwa atrybutu wejściowego.

**Stan wejściowego atrybut**   Wartość lub discretized wartość atrybut wejściowego.

Za pomocą nazwy węzłów i identyfikatory

Nadawanie nazw węzłów w modelu Naive Bayes zawiera dodatkowe informacje na temat typu węzła, aby ułatwić zrozumienie relacje między informacji w modelu.W poniższej tabela przedstawiono Konwencji dla identyfikatorów, które są przypisane do innego węzła typu.

Typ węzła	Konwencja identyfikator węzła
Model główny (1)	Zawsze 0.
Marginalna statystyki węzła (26)	Wartość IDENTYFIKATORA dowolnego.
Atrybut przewidywalne (9)	Liczba szesnastkowa, począwszy od 10 000 000 Przykład: 100000001 10000000b
Atrybut wejściowy (10)	Dwuczęściową liczba szesnastkowa, gdzie pierwsza część jest zawsze 20000000, a druga część rozpoczyna się od szesnastkowy identyfikator powiązanego przewidywalne atrybut. Przykład: 20000000b00000000 W takim przypadek powiązanych atrybut przewidywalne jest 10000000b.
Stan wejściowego atrybut (11)	Trzy części liczby szesnastkowej w przypadku gdy pierwsza część jest zawsze 30000000, druga część zaczyna się od szesnastkowy identyfikator powiązanego atrybut przewidywalny i trzecia część reprezentuje identyfikator wartości. Przykład: 30000000b00000000200000000 W takim przypadek powiązanych atrybut przewidywalne jest 10000000b.

Identyfikatory służy do powiązania wejściowego atrybut i Stany przewidywalne atrybut.Na przykład poniższa kwerenda zwraca nazwy i podpisy dla węzłów, które reprezentują możliwych kombinacji wejściowych i przewidywalny atrybutów dla modelu, TM_NaiveBayes.

SELECT NODE_NAME, NODE_CAPTION
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 10

Oczekiwane wyniki:

NAZWA_WĘZŁA	NODE_CAPTION
20000000000000001	Rower kupujących-> Commute odległość
20000000000000002	Rower kupujących-> Angielski edukacja
20000000000000003	Rower kupujących-> Angielski, zawód
20000000000000009	Rower kupujących-> Stan cywilny
2 000 000 000 000 000a	Rower kupujących-> Liczba dzieci w Główny
2000000000000000b	Rower kupujących-> Region
2000000000000000c	Rower kupujących-> Całkowita elementy podrzędne

Można użyć nazwy węzłów nadrzędnych do pobierania węzły podrzędność.Następująca kwerenda pobiera węzłów, które zawierają wartości Marital Status atrybut wraz z prawdopodobieństwem każdego węzła.

SELECT NODE_NAME, NODE_CAPTION, NODE_PROBABILITY
FROM TM_NaiveBayes.CONTENT
WHERE NODE_TYPE = 11
AND [PARENT_UNIQUE_NAME] = '20000000000000009'

Uwaga

Nazwa kolumna, PARENT_UNIQUE_NAME, muszą być ujęte w nawiasy, aby odróżnić go od zarezerwowanym słowem kluczowym o takiej samej nazwie.

Oczekiwane wyniki:

NAZWA_WĘZŁA	NODE_CAPTION	NODE_PROBABILITY
3000000000000000900000000	Rower kupujących-> Stan cywilny = Brak	0
3000000000000000900000001	Rower kupujących-> Stan cywilny = S	0.457504004
3000000000000000900000002	Rower kupujących-> Stan cywilny = M	0.542495996

Tabela NODE_DISTRIBUTION

kolumna tabela zagnieżdżonej, NODE_DISTRIBUTION, zazwyczaj zawiera statystyki dotyczące występowania wartości w węźle.W modelu Naive Bayes ta tabela jest wypełniana tylko dla następujących węzłów:

Typ węzła	Zawartość tabela zagnieżdżonej
Model główny (1)	Puste.
Marginalna statystyki węzła (24)	Zawiera informacje podsumowujące dla wszystkich przewidywalne atrybutów i wprowadzania atrybutów dla całego zestaw danych szkoleniowych.
Atrybut przewidywalne (9)	Puste.
Atrybut wejściowy (10)	Puste.
Stan wejściowego atrybut (11)	Statystyki, opisujące rozkład wartości w danych szkoleniowych dla danej kombinacji przewidywalne wartość i dane wejściowe zawiera wartość atrybut.

Węzeł ID lub podpisy węzła umożliwia pobranie rosnące poziomy szczegółów.Na przykład poniższa kwerenda pobiera określonych kolumn z tabela NODE_DISTRIBUTION tylko tych węzłów atrybut wejściowe związane z wartości, 'Marital Status = S'.

SELECT FLATTENED NODE_CAPTION,
(SELECT ATTRIBUTE_NAME, ATTRIBUTE_VALUE, [SUPPORT], [PROBABILITY], VALUETYPE
FROM NODE_DISTRIBUTION) as t
FROM TM_NaiveBayes.content
WHERE NODE_TYPE = 11
AND NODE_CAPTION = 'Bike Buyer -> Marital Status = S'

Oczekiwane wyniki:

NODE_CAPTION	t.ATTRIBUTE_NAME	t.ATTRIBUTE_VALUE	t.SUPPORT	t.PROBABILITY	t.VALUETYPE
Rower kupujących-> Stan cywilny = S	Rower kupujących	Brak	0	0	1
Rower kupujących-> Stan cywilny = S	Rower kupujących	0	3783	0.472934117	4
Rower kupujących-> Stan cywilny = S	Rower kupujących	1	4216	0.527065883	4

W tych wyniki wartości kolumna SUPPORT informuje liczba klienci z określonego stanu cywilnego zakupionych rowerów.kolumna prawdopodobieństwo znajduje się prawdopodobieństwo każda wartość atrybut obliczona tylko tym węźle.Aby uzyskać ogólne definicje terminów użytych w tabela NODE_DISTRIBUTION zobacz Mining Model Content (Analysis Services - Data Mining).

Informacje zawarte w węźle Marginal statystyki

W modelu Naive Bayes tabela zagnieżdżonej dla węzła marginalna statystyki zawiera rozkład wartości dla całego zbioru danych szkoleniowych.Na przykład poniższa tabela zawiera częściową listę statystyk w tabeli zagnieżdżonej NODE_DISTRIBUTION modelu TM_NaiveBayes:

ATTRIBUTE_NAME	ATTRIBUTE_VALUE	POMOC TECHNICZNA	PRAWDOPODOBIEŃSTWO	WARTOŚCI
Rower kupujących	Brak	0	0	1
Rower kupujących	0	8869	0.507263784	4
Rower kupujących	1	8615	0.492736216	4
Stan cywilny	Brak	0	0	1
Stan cywilny	S	7999	0.457504004	4
Stan cywilny	M	9485	0.542495996	4
Całkowita elementy podrzędne	Brak	0	0	1
Całkowita elementy podrzędne	0	4865	0.278254404	4
Całkowita elementy podrzędne	3	2093	0.119709449	4
Całkowita elementy podrzędne	1	3406	0.19480668	4

The Bike Buyer kolumna is included because the marginal statistics node always contains a description of the predictable atrybut and its possible values. Wszystkie pozostałe kolumny są wyświetlane reprezentuje atrybuty wejściowego, wraz z wartościami, które były używane w modelu.Wartości można tylko brakujące, discrete lub discretized.

W modelu Naive Bayes, może być bez ciągłego atrybutów, więc wszystkie dane liczbowe jest reprezentowana jako discrete (VALUE_TYPE = 4) lub discretized (VALUE_TYPE = 5).

A Missing wartość (VALUE_TYPE = 1) jest dodawana do każdej wejściowe i wyjściowe atrybut do reprezentowania potencjalnych wartości, które nie były obecne w danych szkoleniowych. Należy uważać, aby odróżnić "Brak", jak ciąg znaków i domyślny Missing wartość. Aby uzyskać więcej informacji zobaczBrak wartości (Analysis Services — wyszukiwanie danych).

Udostępnij za pośrednictwem

model wyszukiwania Zawartości dla Naive modele Bayes (Analysis Services — wyszukiwanie danych)

Opis struktury modelu Bayes Naive

Model zawartości Naive modelu Bayes

Za pomocą nazwy węzłów i identyfikatory

Tabela NODE_DISTRIBUTION

Informacje zawarte w węźle Marginal statystyki

See Also

Concepts

Other Resources

Dodatkowe zasoby