model wyszukiwania Zawartości dla modeli drzewo decyzyjne (Analysis Services — wyszukiwanie danych)

W tym temacie opisano wyszukiwania model zawartości, która jest specyficzna dla modeli używających Microsoft Algorytm drzewa decyzji. Wyjaśnienie ogólnego model wyszukiwania zawartości dla wszystkich typów modelu zobacz Mining Model Content (Analysis Services - Data Mining). Ważne jest pamiętać, że algorytm algorytmów firmy Microsoft jest algorytm hybrydowego, które mogą tworzyć modele z bardzo różnych funkcji: drzewo decyzyjne może reprezentować stowarzyszenia, zasady lub regresja liniowej nawet. Struktura drzewa jest zasadniczo taki sam, ale w jaki sposób interpretowania informacji zależy od celu, dla którego został utworzony w modelu.

Opis struktury modelu drzewa decyzji

Model drzewa decyzji ma jeden nadrzędnym, reprezentującą modelu i jej metadane.Poniżej węzła nadrzędnego są niezależne drzew, reprezentujące przewidywalne atrybutów, które wybierzesz.Na przykład po zdefiniowaniu modelu drzewo decyzyjne do przewidywania, czy klienci będzie coś zakupu i dostarcza dane wejściowe płci i dochodów modelu spowodowałoby powstanie jedno drzewo zakupów atrybut z wiele oddziałów, które dzielą się na warunki odnoszące się do płci i przychody.

Jeśli następnie dodać oddzielny atrybut przewidywalne uczestnictwa w programie klienta korzyści, algorytm spowoduje utworzenie dwóch oddzielnych drzew w węźle nadrzędnym.Jedno drzewo zawiera analizy za zakup i innego drzewa zawiera analizy programu korzyści odbiorcy.Algorytm algorytmów pozwala utworzyć model skojarzenia, algorytm tworzy oddzielne drzewa dla każdego produktu, który jest ich przewidzieć i drzewa zawiera wszystkie inne produkt kombinacje które przyczyniają się do zaznaczenia atrybut lokalizacji miejsce docelowe.

Uwaga

Jeśli model zawiera wiele drzew, można wyświetlić tylko jeden drzewa na czas w Przeglądarka Microsoft drzewa.Jednak w Ogólna zawartość podglądu drzewa , wszystkich drzew w ten sam model są wyświetlane w tym samym czasie.

structure of model content for decision tree

W drzewie dla każdego atrybut przewidywalne zawiera informacje, które w tym artykule opisano, jak wejściowy kolumny, które można wybrać wpływają na wynik określonego atrybut przewidywalne.Węzeł stoi każdego drzewa (NODE_TYPE = 9) zawierający atrybut przewidywalny, następuje to szereg węzłów (NODE_TYPE = 10) reprezentujące atrybuty wejściowego.Atrybut odpowiada kolumnie poziom przypadek lub wartości z kolumn w tabela zagnieżdżonej, które zazwyczaj są wartości z Key Kolumna tabela zagnieżdżonej.

Węzły liść i wewnątrz reprezentują warunki podziału.Drzewo można podzielić na tym samym atrybucie wiele razy.Na przykład TM_DecisionTree modelu może być podzielona na [roczny dochód] i [liczba dzieci], a następnie podzielić na [roczny dochód] dalsze w drzewie konsoli.

Algorytm algorytmów firmy Microsoft może również zawierać liniowej strat zauważyć w całości lub części drzewa.Jeśli atrybut, który zostanie są modelowania jest typ danych numerycznych ciągłe, modelu można utworzyć węzła drzewa regresja (NODE_TYPE = 25) wszędzie tam, gdzie relację między atrybutami mogą być liniowo modelowane.W takim przypadek węzeł zawiera formułę regresja.

Jeśli atrybut przewidywalne discrete wartości lub wartości liczbowe były bucketed lub discretized, model zawsze tworzy jednak drzewa klasyfikacji (NODE_TYPE = 2).Drzewo klasyfikacji może mieć wiele oddziałów lub węzły drzewa wewnętrznych (NODE_TYPE = 3) dla każdej wartości atrybut.Jednak podziału niekoniecznie jest na każdą wartość atrybut.

Algorytm algorytmów firmy Microsoft nie zezwala na typy danych ciągłego jako danych wejściowych; z tego powodu, jeśli typ danych numerycznych ciągłego żadnych kolumn, wartości są discretized.Algorytm wykonuje swoje własne discretization w punkcie uderzenia podział dla wszystkich atrybutów stałego.

Uwaga

Analysis Services automatycznie wybiera metoda bucketing atrybuty stałe; może jednak kontrolować sposób ciągłej wartości w danych wejściowych są discretized ustawiając typ zawartości kolumna struktura wyszukiwania Discretized a następnie ustawiając DiscretizationBucketCount() lub DiscretizationMethod() Właściwość.

Model zawartości dla modelu algorytmów

Ta sekcja zawiera szczegółowe informacje i przykłady tylko dla tych kolumn w modelu zawartości wyszukiwania, które mają szczególne znaczenie w przypadku modeli drzewa decyzji.Aby uzyskać informacje dotyczące ogólnego przeznaczenia kolumn w zestaw wierszy schematu i wyjaśnienia model wyszukiwania terminologii zobacz Mining Model Content (Analysis Services - Data Mining).

  • MODEL_CATALOG
    Nazwa bazy danych, w której przechowywane są w modelu.

  • NAZWA_MODELU
    Nazwa modelu.

  • ATTRIBUTE_NAME
    Nazwa atrybut, który odpowiada w tym węźle.

  • NAZWA_WĘZŁA
    Zawsze taka sama, jak NODE_UNIQUE_NAME.

  • NODE_UNIQUE_NAME
    Identyfikator unikatowy dla węzła w ramach modelu.Tej wartości nie można zmienić.

    W przypadku modeli drzewo decyzyjne unikatowe nazwy, wykonaj następującej konwencji, która nie jest stosowana do wszystkich algorytmy:

    Wszystkie węzły podrzędność z dowolnego węzła określonego będą miały ten sam prefiks szesnastkowy, następuje inną liczbę szesnastkową, reprezentującą sekwencji w ramach elementu nadrzędnego węzła podrzędnego.Prefiksy umożliwia wywnioskować ścieżka.

  • NODE_TYPE
    W modelach drzewo decyzyjne tworzone są następujące typy węzłów:

    Typ węzła

    Description

    1 (Model)

    Węzeł główny dla modelu.

    2 (Drzewo)

    Węzeł nadrzędny drzew klasyfikacji w modelu.Etykietą "All".

    3 (Wewnętrzne)

    Szef firmy wewnętrzne, znaleziony w ciągu w klasyfikacji drzewo lub drzewa regresja.

    4 (Dystrybucji)

    węzeł liść, można znaleźć w klasyfikacji drzewo lub drzewa regresja.

    25 (regresja drzewo)

    Węzeł nadrzędny dla drzewa regresja w ramach modelu.Oznaczone jako "All".

  • NODE_CAPTION
    Przyjazna nazwa w celach wyświetlania.

    Podczas tworzenia modelu wartość NODE_UNIQUE_NAME jest automatycznie używana jako podpisu.Można jednak zmienić wartość NODE_CAPTION zaktualizować nazwy wyświetlanej dla klastra, programowo lub przy użyciu przeglądarki.Podpis jest automatycznie generowane przez model.Zawartość podpis zależy od typu model i typ węzła.

    W modelu drzewa decyzji NODE_CAPTION i NODE_DESCRIPTION mają różne informacje, w zależności od poziom w drzewie.Aby uzyskać więcej informacji i przykłady Zobacz Węzeł podpis i opis węzła.

  • CHILDREN_CARDINALITY
    Oszacowanie liczby dzieci, który węzeł ma.

    Węzeł nadrzędny   Wskazuje numer dający się przewidzieć atrybutów, które zostały modelowane.Drzewo jest tworzony dla każdego atrybut przewidywalne.

    Węzeł drzewa   The Wszystkie węzła dla każdego drzewa informuje, ile wartości były stosowane do atrybut lokalizacji miejsce docelowe.

    • Jeśli atrybut miejsce docelowe jest discrete, wartość jest równa liczbie różnych wartości plus 1 Missing stan.

    • Jeśli atrybut przewidywalne jest ciągła, wartość informuje, ile pakiety były używane w celu ciągłego atrybut modelu.

    Węzły liść   Zawsze 0.

  • PARENT_UNIQUE_NAME
    Unikatowa nazwa węzła nadrzędnego.Dla wszystkich węzłów poziom katalogu głównego, zwracana jest wartość NULL.

  • NODE_DESCRIPTION
    Opis węzła.

    W modelu drzewa decyzji NODE_CAPTION i NODE_DESCRIPTION mają różne informacje, w zależności od poziom w drzewie.

    Aby uzyskać więcej informacji i przykłady Zobacz Węzeł podpis i opis węzła.

  • NODE_RULE
    Opis XML regułę, która opisuje ścieżka do bieżącego węzła z jego natychmiastowe nadrzędnym.

    Aby uzyskać więcej informacji i przykłady Zobacz Węzeł Zasady i reguły Marginal.

  • MARGINAL_RULE
    Opis XML regułę, która opisuje ścieżka od węzła nadrzędnego modelu do bieżącego węzła.

    Aby uzyskać więcej informacji zobacz Węzeł Zasady i reguły Marginal.

  • NODE_PROBABILITY
    Prawdopodobieństwo związane z tym węźle.

    Aby uzyskać więcej informacji zobacz Prawdopodobieństwo.

  • MARGINAL_PROBABILITY
    Prawdopodobieństwo osiągnięcia węzła z węzła nadrzędnego.

    Aby uzyskać więcej informacji zobacz Prawdopodobieństwo.

  • NODE_DISTRIBUTION
    Tabela zawierająca histogramu prawdopodobieństwo węzła.Informacje znajdujące się w tej tabela różni się w zależności od tego, czy atrybut przewidywalne jest ciągłego lub dyskretnych zmiennej.

    Węzeł główny model   Ta tabela jest pusta.

    Węzeł (wszystkie)   Zawiera podsumowanie modelu jako całości.

    WęYle   Zawiera zagregowane dane statystyczne dotyczące jego węzłów liściowych.

    Węzeł liścia   Zawiera obsługę i prawdopodobieństwa dla przewidywanych wyników, biorąc pod uwagę wszystkie warunki w ścieżce prowadzącej do bieżącego węzła typu liść.

    Węzeł regresja   Zawiera formułę regresja, która reprezentuje relację między danych wejściowych i przewidywalny atrybut.

    Aby uzyskać więcej informacji zobacz Węzeł dystrybucyjny fr discrete atrybuty and Węzeł dystrybucji dla atrybutów ciągłe.

  • NODE_SUPPORT
    Liczba przypadków, które obsługują ten węzeł.

  • MSOLAP_MODEL_COLUMN
    Wskazuje kolumna, która zawiera atrybut przewidywalne.

  • MSOLAP_NODE_SCORE
    Wyświetla wynik skojarzony z węzłem.Aby uzyskać więcej informacji zobacz Wynik węzła.

  • MSOLAP_NODE_SHORT_CAPTION
    Etykiety używane w celach wyświetlania.

Remarks

Model drzewa decyzji nie ma oddzielnych węźle, w którym przechowywane są statystyki dla całego modelu, w przeciwieństwie do węzła marginalna statystyk w Naive Bayes lub modelu neuronowe sieci.Zamiast tego modelu tworzy oddzielne drzewa dla każdego atrybut przewidywalny, z węzła programu (wszystkie) na górze drzewa.Każdego drzewa jest niezależna od innych.Jeśli model zawiera tylko jeden atrybut przewidywalny, istnieje tylko jeden drzewa, a zatem tylko jeden (wszystkie) węzła.

Każdego drzewa reprezentujący atrybut danych wyjściowych jest ponadto podzielone na gałęzie wewnętrznych (NODE_TYPE = 3) reprezentujące podziałów bilansujących.Każdy z tych drzew zawiera statystyki dotyczące dystrybucji atrybut lokalizacji miejsce docelowe.Ponadto każdy węzeł liść (NODE_TYPE = 4) zawiera statystyki, opisujące wejściowy atrybutów i ich wartości, wraz z numerem przypadkach w celu każdej pary atrybut wartość.W związku z tym w każdej gałęzi drzewo decyzyjne, można wyświetlić prawdopodobieństw lub dystrybucji danych łatwo bez konieczności pobrania danych źródłowych.Każdy poziom drzewa reprezentuje musi być sumą jego węzłów bezpośrednio podrzędność.

Aby zapoznać się z przykładami pobrać te dane statystyczne zobacz Podczas badania modelu drzewa decyzji (Analysis Services — wyszukiwanie danych).

Przykład struktury drzewo decyzyjne

Aby zrozumieć, w jaki sposób działa drzewo decyzyjne, należy wziąć pod uwagę przykładem, takie jak scenariusz AdventureWorks roweru kupującego.Zakładając, że atrybut przewidywalne jest zakupów nabywcy, algorytm drzewa decyzji usiłuje odnaleźć pojedynczej kolumna danych wśród wszystkich wejść ręcznego podane najbardziej efektywny sposób wykrytych przez klientów, które mogą kupić roweru i osób, które jest mało prawdopodobne, aby kupić rowerów.Na przykład modelu może okazać, że okres ważności jest najlepszym wskaźnik zakupów zachowanie.W szczególności klientów w wieku z 30 najprawdopodobniej do zakupu rowerów, a innymi klientami jest mało prawdopodobne dokonać zakupu.W tym scenariuszu tworzy modelu dzielenie atrybut wiek.Oznacza to, że w drzewie dzieli się na dwie gałęzie, jedną zawierającą klientów w wieku z 30, a inne zawierające klientów poniżej 30.Nowych gałęzi są przedstawiane w strukturze modelu jako dwa nowe drzewa wewnętrznych (NODE_TYPE = 3).

Każda gałąź modelu nadal szukać dodatkowych atrybutów do użycia w rozróżnianie klientów.Jeśli w danych, aby kontynuować tworzenie podgrup klientów jest niewystarczające dowody, model zatrzymuje tworzenie drzewa.Model spowoduje także zatrzymanie budowanie drzewa, za każdym razem, gdy liczba przypadków, w węźle jest zbyt mały, aby kontynuować, niezależnie od tego, jak dobrze jest podziału, lub jeśli ma wartość null lub brak.Przez zatrzymanie wzrostu drzewa wcześnie, można zapobiec modelu szkolenia zbyt blisko jednego z określonym zestaw danych.

Każdy węzeł drzewa wewnętrzne zawiera węzłów typu liść, które zapewniają podział wyniki, biorąc pod uwagę bieżących wyników klasyfikacji.Na przykład możesz mieć węYle, która reprezentuje okres ważności >= 30 i płeć = męski. Węzeł dla tej grupy pokazuje, jak wielu klientów w tej kategorii można zakupić lub nie został zakupiony coś.Na przykład klasyfikacji może zawierać następujące podziały drzewa:

Wewnętrzne drzewa

Podziel

Okres ważności >= 30

Okres ważności >= 30 i płeć = męska

  

Okres ważności >= 30 i płeć = gniazdowy

Okres ważności < 30

Okres ważności < 30 i płeć = męska

  

Okres ważności < 30 i płeć = gniazdowy

Korzystając z modelu drzewo decyzyjne do przewidywanie, model ma atrybuty, które zapewniają jej jako argumenty i następuje ścieżka atrybutów niedziałający w drzewie.Ogólnie rzecz biorąc wszystkie prognoz, przejdź do liść i wewnętrzne węzły są używane tylko dla klasyfikacji.

A węzeł liść zawsze ma NODE_TYPE 4 (dystrybucji) i zawiera histogramu, wskazująca, że prawdopodobieństwo każdego wyniku (zakup lub nie zakupu), biorąc pod uwagę podane atrybuty.Na przykład jeśli poprosić przewidywanie dla nowego klienta, który jest wtyk ponad 60 modelu będzie wyszukiwanie odpowiednich węzła (okres ważności > 30 i płeć = męski), a następnie zwrócić prawdopodobieństwa dla wyniku, określonym przez użytkownika. Prawdopodobieństw te są przechowywane w NODE_DISTRIBUTION tabela dla tego węzła.

Jeśli przewidywalne atrybut jest liczbą ciągłe, algorytm próbuje utworzyć formułę regresja, która modeluje relację między atrybut przewidywalny i danych wejściowych.

Węzeł podpis i opis węzła

W modelu drzewo decyzyjne węzeł podpis i opis węzła zawiera podobne informacje.Opis węzłów jest lepiej i zawiera więcej informacji, jak przeniesienie bliżej do węzłów liść.Węzeł podpis i opis węzła są zlokalizowane ciągi.

NODE_CAPTION

Wyświetla atrybut, który odróżnia tego określonego węzła do węzła nadrzędnego.Podpis węzła definiuje sub-segment z zapełnianie oparte warunek podziału.Na przykład jeśli podział znajdowała się na [okres ważności] i był podziału 3 drogowy, podpisy węzeł na węzły podrzędność trzy może być "Wiek<40 ","40 <= [Wiek<50 ","[Wieku>= 50 ".

NODE_DESCRIPTION   

Zawiera pełną listę atrybutów, które odróżniają węzeł z innych węzłów, począwszy od węzła nadrzędnego modelu.Na przykład, nazwa produktu = kolor i Apple = czerwony.

Węzeł Zasady i reguły Marginal

Kolumny NODE_RULE i MARGINAL_RULE zawierają te same informacje, jak NODE_CAPTION i NODE_DESCRIPTION kolumn, ale reprezentuje informacje, jak fragmentów XML.Reguła węzła jest wersja XML pełną ścieżka, reguła marginalna wskazuje najnowszych podziału.

Atrybut, reprezentowane przez fragmentu XML może być zarówno proste lub złożone.Proste atrybut zawiera nazwę kolumna, modelu, a wartość atrybutu.Jeśli kolumna model zawiera zagnieżdżoną tabelę, atrybut zagnieżdżona tabela jest reprezentowana jako łączenie nazwy tabeli, wartość klucz i atrybut.

Uwaga

SQL Server Analysis Services obsługuje wersja 2.0 PMML standardowych, z rozszerzeniami do obsługi tabela zagnieżdżonej.Generowanie PMML wersja modelu danych zawiera tabele zagnieżdżone, wszystkie elementy w modelu, które zawierają predykaty są oznaczone jako rozszerzenie.

Węzeł dystrybucyjny dla discrete atrybuty

W modelu drzewa decyzji tabela NODE_DISTRIBUTION zawiera przydatnych statystyk.Jednakże typ statystyk zależy od czy drzewo prognozuje atrybut discrete lub ciągły.W tej sekcji opisano znaczenie statystyk dystrybucji węzła discrete atrybutów.

Atrybut nazwy i wartości atrybutów

W drzewie klasyfikacji nazwa atrybut zawsze zawiera nazwę kolumna, przewidywalne.Wartość ta informuje o prognozuje drzewa.Ponieważ jedno drzewo zawsze reprezentuje pojedynczy atrybut przewidywalny, wartość ta jest powtarzana w drzewie konsoli.

Dla typu danych discrete pole wartości atrybut znajduje się lista wartości możliwe przewidywalna kolumna oraz Missing wartość.

Pomoc techniczna

Wartość pomocy technicznej dla każdego węzła informuje o liczbie spraw znajdują się w tym węźle.poziom (wszystkie) należy skontaktować się z pełną liczbę przypadków, które były używane na szkolić w modelu.Dla każdego podziału w drzewie liczba przypadków, które zostały zgrupowane w tym węźle drzewa ma wartość pomocy technicznej.Suma przypadki, w węzłach typu liść musi być równa liczba spraw w nadrzędnym węźle drzewa.

Dla węzłów, które reprezentują ciągłego atrybutów występowanie wartości null w danych może prowadzić do niektórych counterintuitive wyniki.Na przykład, jeśli istnieją m przypadkach średniej wartości będą obliczane jako /n Suma (wszystkie sprawy), where n jest liczbę mniejszą niż m, and m-n wskazuje liczbę przypadków z brakujących wartości.Obsługa jest również reprezentowana jako n.

Prawdopodobieństwo

Prawdopodobieństwo związane z każdego węzła pozwalają określić prawdopodobieństwo, że w każdym przypadek całego zestaw danych czy kończy się na tym określonym węźle.Prawdopodobieństwo wyniki są obliczane, zarówno dla drzewa jako całość, jak i natychmiastowe podziału.

Na przykład w poniższej tabela przedstawiono bardzo prostego modelu, w przypadkach 100.

Wewnętrzne drzewa

Przypadków

Węzeł liść

Przypadków

Prawdopodobieństwo względem węzeł nadrzędny

Prawdopodobieństwo odnoszących się do węzła najwyższego poziomu

Okres ważności >= 30

60

Okres ważności >= 30 i płeć = męska

50

50/60 = .83

50/100 = .5

  

  

Okres ważności >= 30 i płeć = gniazdowy

10

10/60 = .16

10/100 = .10

Okres ważności < 30

40

Okres ważności < 30 i płeć = męska

30

30/40 = .75

30/100 = .30

  

  

Okres ważności < 30 i płeć = gniazdowy

10

10/40 = .25

10/100 = .10

Niewielkie korekty są wprowadzane we wszystkich modelach konto dla brakujących wartości.Ciągłe atrybutów dla każdej wartości lub zakres wartości jest reprezentowana jako stan (na przykład, wiek <Wiek 30, = 30, a okres ważności >30), a prawdopodobieństw są obliczane w następujący sposób: istnieje stan (wartość = 1), istnieje kilka innych stan (wartość = 0), stan jest Missing. Aby uzyskać więcej informacji na temat sposobu prawdopodobieństw zostaną skorygowane tak, aby przedstawić brakujących wartości, zobacz Brak wartości (Analysis Services — wyszukiwanie danych).

Prawdopodobieństw dla każdego węzła obliczane są prawie bezpośrednio z rozpowszechniania, w następujący sposób:

Prawdopodobieństwo = (obsługa stanu) + obsługę poprzedni stan / (obsługuje wcześniejsze węzła oraz pomocy węzła)

Analysis Services używa prawdopodobieństw dla każdego węzła do porównywania przechowywanych prawdopodobieństwa z wcześniejszego prawdopodobieństwo do ustalenia, czy ścieżka z obiektu nadrzędnego do węzła podrzędnego wskazuje wnioskowanie silne.

Podczas tworzenia prognoz, prawdopodobieństwa rozkładu muszą być zrównoważone z prawdopodobieństwem węzła do smoothen prawdopodobieństw.Na przykład jeśli podział w drzewie oddziela przypadkach według współczynnika 9000/1000, drzewa jest bardzo niezrównoważone.W rezultacie przewidywanie, z małej firmy nie powinien mieć tej samej wagi w przewidywaniu, pochodzących z gałęzi w wielu przypadkach.

Odchylenie

Odchylenie jest miarą tego, jak rozproszonego wartości w próbce, biorąc pod uwagę oczekiwanego dystrybucji.W przypadku wartości discrete odchylenie wynosi 0, zgodnie z definicją.

Aby uzyskać informacje dotyczące sposobu obliczania wariancji dla wartości stałe Zobacz model wyszukiwania Zawartości dla modeli regresji liniowej (Analysis Services — wyszukiwanie danych).

Typ wartości

kolumna Typ wartość zawiera informacje o znaczeniu w innych kolumnach tabela NODE_DISTRIBUTION wartości liczbowej.Typ wartości w kwerendach służy do pobierania określonych wierszy z zagnieżdżonych tabel.Aby zapoznać się z przykładami zobacz Podczas badania modelu drzewa decyzji (Analysis Services — wyszukiwanie danych).

Typu MiningValueType Wyliczanie, używane są następujące w drzewach klasyfikacji.

Typ wartości

Description

1 (Brak)

Wskazuje liczbę, prawdopodobieństwo lub innych statystyki związane z brakujących wartości.

4 (Dyskretnych)

Wskazuje liczbę, prawdopodobieństwo lub innych statystyki związane z wartością discrete lub discretized.

Jeśli model zawiera ciągłego atrybut przewidywalny, w drzewie może również zawierać typy wartości, które są unikatowe dla formuły regresja.Aby wyświetlić listę typów wartości, które są używane w drzewach regresja zobacz model wyszukiwania Zawartości dla modeli regresji liniowej (Analysis Services — wyszukiwanie danych).

Wynik węzła

Wynik węzła reprezentuje informacje nieco inaczej na każdym poziomie drzewa.Ogólnie rzecz biorąc wynik jest wartość liczbowa, wskazująca, jak dobre podział uzyskano dzieląc stanu.Wartość jest reprezentowana jako podwójne, gdzie większa wartość jest lepsza.

Z definicji węzeł modelu i wszystkie węzły liść mają do uzyskania oceny w przedziale od 0 węzła.

Dla węzła (wszystkie), który reprezentuje u góry każdego drzewa kolumna MSOLAP_NODE_SCORE znajduje najlepszy wynik podziału w całym drzewie.

Dla wszystkich innych węzłów w drzewie (węzłów typu liść) z wyjątkiem wynik dla każdego węzła reprezentuje najlepszy wynik podziału dla bieżącego węzła minus wynik podziału dla węzła nadrzędnego.Zazwyczaj wynik podziału dla węzła nadrzędnego powinny zawsze być lepsza niż wynik podziału na jeden z jego węzłów podrzędność.Jest to konieczne, ponieważ najlepszym rozwiązaniem jest dodanie dzieli się modelu drzewa decyzji o atrybutach najważniejszych dotyczące elementów najpierw.

Na wiele sposobów obliczania wyniku podziału, zależnie od parametru algorytmu zostanie wybrana opcja.Omówienie sposobu obliczania wyniki dla każdej z metod tworzenia wyników wykracza poza zakres tego tematu.Aby uzyskać więcej informacji zobacz „Nauka Bayesian sieci: Połączenie danych statystycznych i wiedza", z Microsoft Witryna sieci Web badań.

Uwaga

Jeśli tworzysz model drzewa decyzji, który ma ciągłe i discrete przewidywalne atrybuty, widoczny będzie całkowicie różne wyniki w węzłach (wszystkie) reprezentujące każdy typ drzewa.Każdego modelu należy wziąć pod uwagę niezależnie i metody używane do tworzenia wyników regresja są całkowicie różni się od tych, które są używane do tworzenia wyników klasyfikacji.Nie można porównać wartości wynikowe węzła.

Węzły regresja w modelu drzewo decyzyjne

Jeśli model drzewa decyzji zawiera przewidywalne atrybut z ciągłą dane liczbowe, algorytm algorytmów Microsoft stara się znaleźć obszarów w przypadku liniowego relacji między stanem przewidywane i zmienne wejściowe dane.Jeśli algorytm zakończy się pomyślnie w znajdowaniu liniowej zależności, tworzy specjalne drzewa (NODE_TYPE = 25), reprezentuje regresja liniowej.Te węzły drzewa regresja są bardziej skomplikowane niż węzłów, które reprezentują discrete wartości.

Ogólnie rzecz biorąc regresja mapuje zmiany w ciągłych zależne (zmienna przewidywalne), w zależności od zmian w danych wejściowych.Jeśli zmienną zależną zawiera wszystkie dane wejściowe ciągły, a relacja między wartości wejściowych i przewidywane jest na tyle stabilny, aby być obliczone jako wykres liniowy, węzeł regresja zawiera formułę.

Niemniej jednak jeśli jest relacja między wartości wejściowych i przewidywane nieliniowe, podział jest tworzony, tak samo, jak standardowy decyzyjnym.Załóżmy na przykład, A jest atrybut przewidywalny i B i C są dane wejściowe, gdzie C jest typem wartości stałe.Jeśli relacja między A C jest dość stabilna w części danych, ale niestabilny w innych algorytm będzie powodować podziały do reprezentowania różnych obszarów danych.

Podziel warunku

W węźle wyniku

Jeśli n < 5

Relacja może być wyrażona jako równanie 1

Jeśli n od 5 do 10

Nie równania

Jeśli n > 10

Relacja może być wyrażona jako równanie 2

Aby uzyskać więcej informacji na temat regresja węzłów zobacz model wyszukiwania Zawartości dla modeli regresji liniowej (Analysis Services — wyszukiwanie danych).