Udostępnij za pośrednictwem


Raport sprawdzania poprawności między (Analysis Services — wyszukiwanie danych)

krzyżowe sprawdzanie poprawności pozwala partycji struktura wyszukiwania do przekrój poprzeczny i iteratively szkolić i przetestować modeli dla każdego przecięcia danych.You specify several partitions to divide the data into, and each partition is used in turn as the test data, while the remaining data is used to train a new model.Analysis Services then generates a set of standard accuracy metrics for each model.Przez porównanie miar dla modeli generowane dla każdego przecięcia, można uzyskać, dobrym pomysłem jest niezawodny sposób model wyszukiwania dla całego zestaw danych.

Uwaga

krzyżowe sprawdzanie poprawności nie może być używany z każdego modelu, zawierający kolumna klucz czas lub klucz SEQUENCE.

W tej sekcji omówiono informacje, które są prezentowane w Sprawdzanie krzyżowe sprawdzanie poprawności sprawozdanie Wykres dokładność wyszukiwania kartę Konstruktor wyszukiwanie danych.Aby uzyskać informacje na temat tworzenia raportów zobacz Cross-Validation Tab (Mining Accuracy Chart View).

Tworzenie raportu krzyżowe sprawdzanie poprawności

Do sprawdzania różnych modeli wyszukiwania skojarzonych z struktura wyszukiwania, użyj jednej Sprawdzanie krzyżowe sprawdzanie poprawności kartę widoku dokładność wyszukiwania w Projektancie wyszukiwanie danych lub procedur przechowywanych krzyżowe sprawdzanie poprawności skonfigurować następujące opcje:

  • Umożliwia określenie liczby zgięcia.

  • Określ maksymalną liczbę przypadków dla krzyżowe sprawdzanie poprawności.Numer ten jest podzielona przez liczbę zgięcia.

  • Określ przewidywalna kolumna.Opcjonalnie można określić stan przewidywalne.

Uwaga

Jeśli Twój struktura wyszukiwania zawiera klastrowanie modeli, określanie Liczba klastrów zamiast przewidywalna kolumna.W raporcie zwraca wyniki tylko w przypadku klastrowanie modeli.

  • Opcjonalnie zestaw parametry, które kontrolują, jak ocenić dokładność przewidywanie.

Wybieranie zestaw danych krzyżowe sprawdzanie poprawności

Po użyciu Sprawdzanie poprawności krzyżowe Karta Wykres dokładność wyszukiwania widoku, istnieją dwie metody kontrolowania ilości i typu danych, które jest używane podczas krzyżowe sprawdzanie poprawności: można określić liczbę zgięcia i można ograniczyć liczbę przypadków. Domyślnie sprawdzanie krzyżowe sprawdzanie poprawności w Business Intelligence Development Studio używa przypadkach szkoleń dla każdego modelu. Jeśli filtr jest kojarzone z modelem, stosowany jest filtr.

The Fold Count value specifies the number of cross-sections of the zestaw danych to create.Każdy zgięcia jest używany jako zestaw testowania danych, a dane w pozostałych zgięcia służy przeszkolić nowego modelu.W związku z tym jeśli użyto minimalną wartość 2 połowy zestaw danych mogą być użyte do testowania i druga połowa szkolenia.

Jeśli struktura wyszukiwania nie jest przechowywana w wystąpienie z Analysis Services, ale jest tworzona jako tymczasowe lub struktury sesja, maksymalna liczba zgięcia, których można używać wynosi 10. Jeśli struktura wyszukiwania są przechowywane w instancji Analysis Services, nie można utworzyć zgięcia więcej niż zdarzają się przypadki. Jeśli liczba przypadków jest mniejsza niż liczba zostanie zestaw karta składana jak liczba mniejszym numer jest używany.

Uwaga

Jak zwiększyć liczbę zgięcia, czas jest wymagany do wykonania krzyżowe sprawdzanie poprawności zwiększa w związku z tym, ponieważ model musi być generowane i przetestowane pod kątem każdej zagięć.Jeśli jest zbyt duża liczba zgięcia, mogą wystąpić problemy z wydajnością.

The Max Cases value specifies the total number of cases, across all folds, that can be used for krzyżowe sprawdzanie poprawności.Dlatego jest równa Liczba przypadków, w dowolnym określonej karty składanej jak Maksymalna liczba spraw wartość podzielona przez Karta składana jak licznik wartość.Wartością domyślną jest 0, co oznacza, że wszystkie sprawy w struktura wyszukiwania są używane.

Jeśli przy użyciu jednej z procedur przechowywanych sprawdzania krzyżowe sprawdzanie poprawności, należy podać wartości FoldCount i MaxCases właściwości jako parametry procedura przechowywana.

Uwaga

Jeżeli korzystasz z procedur przechowywanych sprawdzania krzyżowe sprawdzanie poprawności, można również ustawić parametr zestawu danych, aby zdefiniować zestaw danych wykorzystywanych do testowania.Opcje dla zestaw danych zawierają tylko zestaw szkoleniowy, testowanie i szkolenia zestawu i kombinacje szkolenia i testowanie zestawu z model wyszukiwania filtrów.Aby uzyskać więcej informacji zobaczSystemGetCrossValidationResults (Analysis Services — wyszukiwanie danych).

Wybranie modeli i kolumny, aby sprawdzanie poprawności

Po użyciu Sprawdzanie poprawności krzyżowe kartę w Konstruktorze wyszukiwanie danych, należy najpierw zaznaczyć przewidywalna kolumna z listy.Zazwyczaj struktura wyszukiwania może obsługiwać wiele modeli wyszukiwania, nie wszystkie z nich korzystają z jednego przewidywalna kolumna.Po uruchomieniu krzyżowe sprawdzanie poprawności tylko modele te, których używane są te same kolumna przewidywalne można uwzględnić w raporcie.

Aby wybrać atrybut przewidywalny, kliknij przycisk Atrybut miejsce docelowe i kolumna z listy.Jeśli atrybut miejsce docelowe jest zagnieżdżone kolumna lub kolumna w tabela zagnieżdżonej, należy wpisać nazwę kolumna zagnieżdżone, przy użyciu formatu <Nazwa tabela zagnieżdżonej>(klucz). <Zagnieżdżone kolumna>. Jeśli w kolumnie tylko używane z tabela zagnieżdżonej jest kolumna klucza, można użyć <Nazwa tabela zagnieżdżonej>(klucz).

Uwaga   Jeśli używasz procedury przechowywane, może wykorzystać większą kontrolę nad modeli, które są przetestowane.Aby uzyskać więcej informacji zobaczSystemGetCrossValidationResults (Analysis Services — wyszukiwanie danych).

Po zaznaczeniu atrybut przewidywalny, Analysis Services automatycznie sprawdza wszystkie modele, które używają tego samego atrybut przewidywalne.

Jeśli atrybut miejsce docelowe nie zawiera wartości discrete, po wybraniu przewidywalna kolumna, możesz opcjonalnie wpisać stan miejsce docelowe, jeśli jest określona wartość, która ma zostać dokonana prognoza.

Wybór stanu docelowego wpływa na środki, które są zwracane.Jeśli zostanie określony atrybut miejsce docelowe — czyli nazwę kolumna — i nie wybierać określona wartość ma być model do przewidywanie domyślnie modelu będą oceniane na jego przewidywanie najbardziej prawdopodobne stanu.

Jeśli między zatwierdzasz klastrowania modelu, jest nie dający się przewidzieć kolumna; zamiast tego należy wybrać Liczba klastrów na liście atrybutów przewidywalne Atrybut miejsce docelowe pole listy.After you have selected Cluster, other options that are not relevant to clustering models, such as Target State, are disabled.Analysis Services will test all clustering models that are associated with the mining structure.

Ustawianie próg dokładność

Można kontrolować standardowego do pomiaru przewidywanie dokładność przez ustawienie wartości dla Próg miejsce docelowe.Próg stanowi rodzaj paska dokładności.Każdy przewidywanie przydzielono prawdopodobieństwo, że przewidywane wartości są poprawne.Dlatego jeśli użytkownik zestaw Próg miejsce docelowe bliżej wartości 1, które wymagają, prawdopodobieństwa dla każdej określonej przewidywanie na stosunkowo wysoka, aby traktowany jak dobre przewidywanie. I odwrotnie jeśli użytkownik zestaw Próg miejsce docelowe bliżej do 0, prognoz nawet niższej wartości prawdopodobieństwa liczy się jako "dobry" prognoz.

Brak wartości progu zalecane, ponieważ prawdopodobieństwo wszelkie przewidywanie zależy od danych oraz typ tworzonego przewidywanie.Należy zapoznać się z niektórych prognoz na poziomie różnych prawdopodobieństwo do określenia słupek odpowiednie dokładności danych.Ten krok jest ważne ponieważ wartości, które zestaw dla Próg miejsce docelowe ma silny wpływ na dokładność mierzone w modelu.

Na przykład załóżmy, że struktury zawiera trzy modele, które przewidywania stan miejsce docelowe z nimi prawdopodobieństwa 0,05, 0,15 i 0,8.Jeśli użytkownik zestaw progu do przewidywanie tylko jedną wartość 0,5, jest liczony jako poprawne.Jeśli ustawisz Próg miejsce docelowe do 0,10 dwóch prognoz są liczone jako poprawne.

Kiedy Próg docelowej is zestaw to null, która jest wartością domyślną, stan najbardziej prawdopodobne jest używana jako miejsce docelowe. W przykładzie po prostu cytowane wszystkich trzech modelach musi poprawne prognoz.Dlatego podczas porównywania modeli należy wziąć pod uwagę próg używane dla każdego wystąpienie sprawdzania krzyżowe sprawdzanie poprawności.Za pomocą środków ryzyko, średni i błąd kwadrat średniej katalogu głównego, które znajdują się w raporcie sprawdzania poprawności przeładunku, dokonania oceny średniej prawdopodobieństw we wszystkich przypadkach w określonym modelu.

Ograniczenia podczas na karcie Sprawdzanie krzyżowe sprawdzanie poprawności

W przypadku krzyżowe sprawdzanie poprawności za pomocą raportu krzyżowe sprawdzanie poprawności w Business Intelligence Development Studio, istnieją pewne ograniczenia dotyczące modeli, które można testować i parametry, które zestaw.

  • Wszystkie modele związane ze strukturą wybranego wyszukiwania są domyślnie sprawdzane granic.Nie można określić model lub lista modeli.

  • Sprawdzanie poprawności między nie jest obsługiwana dla modeli, które są oparte na algorytm serii czasowych firmy Microsoft lub algorytm grupowania sekwencji firmy Microsoft.

  • Nie można utworzyć raport, jeśli struktura wyszukiwania nie zawiera żadnych modeli, które mogą być badane sprawdzania krzyżowe sprawdzanie poprawności.

  • Jeśli struktura wyszukiwania zawiera modeli klastrów i innych niż klastrowanie i nie zostanie wybrana Liczba klastrów opcja, wyniki dla obu rodzajów modeli są wyświetlane w tym samym raporcie mimo, że ustawienia atrybut, stan i próg może nie być odpowiednie dla modeli klastrów.

  • Niektóre wartości parametrów są ograniczone.Na przykład wyświetlane jest ostrzeżenie, jeśli liczba zgięcia jest więcej niż 10, ponieważ generowanie tak wiele modeli może spowodować, że raport, aby wyświetlić powoli.

Jeśli chcesz określić zaawansowane ustawienia, należy użyć procedur przechowywanych sprawdzania krzyżowe sprawdzanie poprawności.Aby uzyskać więcej informacji zobaczWyszukiwanie danych przechowywanych procedur (Analysis Services — wyszukiwanie danych).

Wyniki sprawdzania krzyżowe sprawdzanie poprawności

Po określone parametry i kliknięciu Odśwież, wyniki krzyżowe sprawdzanie poprawności są wyświetlane w siatce wyniki.W tej sekcji omówiono zawartość każdej z kolumn w siatce wyniki.

Oprócz niektóre podstawowe informacje o liczbę zgięcia danych oraz ilości danych w każdym zgięcia Analysis Services Wyświetla zestaw miar dotyczących każdego modelu według typu. Poniższa lista zawiera testów i metryk o wyjaśnienie, co oznacza metrykę.

Typ testu

Miary i opisy

Klastrowanie

Prawdopodobieństwo przypadekWskazanie, w jaki sposób prawdopodobne jest, przypadek należy do określonego klastra.

Klasyfikacja

Dodatnia wartość trueLiczba przypadków, które spełniają następujące warunki:
  • Przypadek zawiera wartości miejsce docelowe.

  • Model przewidzieć, że przypadek zawiera wartości miejsce docelowe.

Fałszywie dodatnie.Liczba przypadków, które spełniają następujące warunki:
  • Rzeczywista wartość jest równa wartości miejsce docelowe.

  • Model przewidzieć, że przypadek zawiera wartości miejsce docelowe.

Ujemna wartość trueLiczba przypadków, które spełniają następujące warunki:
  • przypadek nie zawiera wartości miejsce docelowe.

  • Model przewidzieć, czy przypadek nie zawiera wartości miejsce docelowe.

Ujemna wartość falseLiczba przypadków, które spełniają następujące warunki:
  • Rzeczywista wartość różną od wartości miejsce docelowe.

  • Model przewidzieć, czy przypadek nie zawiera wartości miejsce docelowe.

Klasyfikacja

Przejścia/błędówLiczba przypadków, które spełniają następujące warunki:
  • Jeżeli przewidywane stanu z najwyższym prawdopodobieństwa jest taka sama, jak stan wejściowych i prawdopodobieństwa jest większa niż wartość Próg stanu.

  • W przeciwnym razie nie powiedzie się.

Prawdopodobieństwo

PodnieśWspółczynnik prawdopodobieństwa rzeczywiste przewidywanie marginalna prawdopodobieństwu w przypadku testu.Metryka ta pokazuje, ile prawdopodobieństwo zwiększa, gdy używany jest model.
Błąd główny średniej kwadratPierwiastek kwadratowy z średni błąd we wszystkich przypadkach partycji, podzielona przez liczbę spraw w partycji.
Wynik dziennikaStosunek dwóch prawdopodobieństw konwertowane na skali logarytmicznej.Wartości ujemne oznacza, że przewidywanie gorsza niż losowe wynik, wynik dodatni oznacza, że przewidywanie lepiej niż losowe argumentu przypuszczenie.

Oszacowanie

Błąd główny średniej kwadratŚredni błąd przewidywane wartości rzeczywista wartość, wyrażona jako pierwiastek kwadratowy z Średnia suma kwadratowy błędów.
Oznacza to błąd bezwzględneŚredni błąd przewidywane wartości rzeczywista wartość, wyrażona jako średnia bezwzględne Suma błędów.
Wynik dziennikaOcena prawdopodobieństwa dziennika do przewidywanie.Wartość ujemna wskazuje, że przewidywanie jest gorsza niż losowe argumentu przypuszczenie.Wartość dodatnia wskazuje, że przewidywanie jest lepsze niż losowe argumentu przypuszczenie.

Agregacje

Środki agregacja zapewniają wskazanie wariancji w wynikach dla każdej partycji.

MeanŚrednia z wartości partycji dla danego miara.
Odchylenie standardowe.Średnie odchylenie od wartości średniej dla określonej miara, na wszystkich partycjach w modelu.

Uwaga

Nieprzetworzone wyniki mogą mieć rozkład bardzo nieprawidłowych lub skośny, wynik dziennika jest podobna do wartości procentowej.