Udostępnij za pośrednictwem


Partycjonowanie danych do szkolenia i testowanie zestawy (Analysis Services — wyszukiwanie danych)

Rozdzielanie do szkolenia i testowania zestawów danych jest ważną częścią procesu oceny modeli wyszukiwanie danych.Typically, when you partition a data set into a training set and testing set, most of the data is used for training, and a smaller portion of the data is used for testing.Analysis Services randomly samples the data to help ensure that the testing and training partitions are similar.Za pomocą podobne dane, szkolenia i testowania, można zminimalizować skutki rozbieżności danych i lepiej zrozumieć właściwości modelu.

Po przetworzeniu modelu przy użyciu zestaw szkolenia, tworząc prognoz dla zestaw testów przetestowanie modelu.Ponieważ dane zestaw testowania zawiera już znanych wartości dla atrybut, który ma zostać dokonana prognoza, łatwo jest stwierdzić, czy prób w modelu są poprawne.

Zazwyczaj przewidywanego dokładności model wyszukiwania jest mierzona za albo Podnieś lub klasyfikacji dokładności.Aby uzyskać więcej informacji na temat dźwigu wykresy oraz inne wykresy dokładności zobacz Narzędzia do wykresy dokładność modelu (Analysis Services — wyszukiwanie danych).

Tworzenie partycji dla wyszukiwanie danych struktury

W SQL Server 2008, należy podzielić dane poziom struktura wyszukiwania. Informacje o rozmiarem partycji a danych zawartych w każdej partycji jest przechowywany ze strukturą i wszystkie modele, które są oparte na tej struktury można użyć partycji szkolenia i testowania.

Można zdefiniować partycji struktura wyszukiwania w następujący sposób:

  • Przy użyciu Kreatora wyszukiwanie danych, aby podzielić struktura wyszukiwania, podczas tworzenia struktura wyszukiwania.

  • Modyfikowanie właściwości struktury w Struktura wyszukiwania kartę Konstruktora wyszukiwanie danych.

  • Tworzenie i modyfikowanie struktury programowo przy użyciu Analysis Management Objects (AMO) lub XML definicja danych Language (DDL).

Partycja jest struktura wyszukiwania za pomocą Kreatora wyszukiwanie danych

Domyślnie po zdefiniowaniu źródła danych dla struktura wyszukiwania, Kreatora wyszukiwanie danych będzie dzielenie danych na partycje, 70 procent szkoleń i 30 procent w przypadku testowania.Jest to często używane do wyszukiwanie danych, ale są związane z współczynnika Analysis Services można zmienić ten stosunek do własnych potrzeb.

Można również skonfigurować kreatora, aby zestaw maksymalną liczbę przypadków szkolenie, lub można połączyć limitów w celu umożliwienia maksymalny procent przypadków do określona maksymalna liczba przypadków.Określ maksymalną liczbę przypadków i maksymalny procent przypadków Analysis Services używa mniejszego limitu dwóch jako rozmiar zestaw testów. Na przykład jeśli wstrzymanie 30 procent przypadków testowania i maksymalną liczbę przypadków, test zostanie określona jako 1000, rozmiar zestaw testów nigdy nie przekroczy przypadkach 1000.Może to być przydatne, gdy chcesz zapewnić rozmiar zestaw testów pozostają spójne, nawet wtedy, gdy więcej szkoleń dane są dodawane do modelu.

Jeśli używasz tego samego widoku urządzenie źródłowe danych dla wyszukiwania różnych struktur i aby mieć pewność, że dane jest podzielony na partycje w przybliżeniu taki sam sposób, w przypadku wszystkich struktur wyszukiwania i ich modeli, należy określić siewnego używany do zainicjowania losowe próbkowanie.Po określeniu wartości dla HoldoutSeed, Analysis Services użyje tej wartości do rozpoczęcia próbkowanie. W przeciwnym razie próbkowanie używa algorytmu mieszania na nazwie struktura wyszukiwania do utworzenia wartość początkową.

Uwaga

Utworzyć kopię struktura wyszukiwania przy użyciu EXPORT i IMPORT instrukcje, nowej struktura wyszukiwania będzie miało tę samą definicję partycji, ponieważ proces eksportowania tworzy nowy identyfikator, ale korzysta z tej samej nazwie. Jednak jeśli dwie struktur wyszukiwania za pomocą tego samego urządzenie źródłowe danych, ale mają inne nazwy, partycje, które są tworzone dla każdej struktura wyszukiwania będą inne.

Modyfikowanie właściwości struktura

Po utworzeniu i przetworzyć struktura wyszukiwania i czym postanowiono zmienić chcesz dodać partycji badania można modyfikować właściwości struktura wyszukiwania.Aby zmienić sposób, że dane jest podzielony na partycje, należy edytować następujące właściwości:

Właściwość

Description

HoldoutMaxCases

Określa maksymalną liczbę przypadków, aby dołączyć do zestaw testów.

HoldoutMaxPercent

Określa liczbę przypadków, aby uwzględnić w zestaw testów jako procent kompletny zestaw danych.Aby nie zestaw danych, może określić 0.

HoldoutSeed

Określa wartość całkowitą używany jako siewnego wybierając losowo danych na partycje.Wartość ta nie wpływa na liczbę przypadków, zestaw szkolenia; zamiast tego gwarantuje, że partycja może być powtarzane.

W przypadku dodania lub zmiany partycji do istniejącej struktury, należy ponownie przetworzyć struktury i wszystkich skojarzonych modeli.Ponadto ponieważ Dodawanie partycji powoduje, że model, aby być szkolony na inny podzbiór danych, mogą się pojawić różne wyniki z modelu.

Określanie wstrzymanie programowe

Można utworzyć podzielonym na partycje danych struktura wyszukiwania za pomocą instrukcji DMX AMO i XML DDL.

  • DMX   W języku DMX (wyszukiwanie danych rozszerzenia), tworzenia struktura wyszukiwania został rozszerzony instrukcja zawiera klauzulę WITH wstrzymanie.Opis składni i przykłady instrukcja CREATE konstrukcję zobacz TWORZENIE struktura wyszukiwania (DMX).

    Uwaga

    ALTER struktura wyszukiwania instrukcji nie obsługuje użycia parametrów wstrzymanie.

  • ASSL   Można zarówno tworzenia nowych struktur górnictwo podzielonym na partycje i Dodawanie partycji do istniejącej struktury danych wyszukiwania przy użyciu Analysis Services Język wykonywanie wykonywanie skryptów (ASSL). Aby uzyskać więcej informacji zobaczElement MiningStructure (ASSL).

  • AMO   Można również wyświetlać i modyfikować partycje przy użyciu AMO.Aby uzyskać więcej informacji zobaczAMO Concepts and Object Model.

Można przeglądać informacje o partycjach w istniejącej struktura wyszukiwania za pomocą kwerend wysyłanych do zestaw zestaw wierszy schematu wyszukiwanie danych.Można to zrobić, tworząc zestawu zestaw wierszy DISCOVER wywołania lub można użyć kwerendy DMX.Aby uzyskać więcej informacji zobacz Dane schematu wyszukiwania zestawów wierszy lub Querying the Data Mining Schema Rowsets (Analysis Services - Data Mining).

Korzystanie z narzędzia informacje o partycji

Domyślnie wszystkie informacje o partycjach szkolenia i testów są buforowane, tak, aby nauczyć komputer, a następnie przetestować nowe modele za pomocą istniejących partycji.Można również zdefiniować filtry do zastosowania na partycje wstrzymanie buforowane, umożliwiające dokonanie oceny modelu na podzbiorów danych.Aby uzyskać więcej informacji zobaczTworzenie filtrów dla modeli wyszukiwania (Analysis Services — wyszukiwanie danych).

Sposób, że przypadkach dzielą się na partycji zależy od tego, w sposób, jak skonfigurować wstrzymanie i dane, które podasz.Jeśli chcesz określić liczbę przypadków, w każdej partycji lub znaleźć szczegółowe informacje o przypadków zawartych w zestawach szkolenia i test kwerendy można struktury modelu przez utworzenie kwerendy DMX.Na przykład poniższa kwerenda zwraca sprawy, które zostały użyte zestaw szkolenia modelu.

SELECT * from <structure>.CASES WHERE IsTrainingCase()

Aby pobrać jedynie przypadki test, a dodatkowo filtrować przypadkach testu na jednej z kolumn w strukturze wyszukiwania, należy użyć następującej składni:

SELECT * from <structure>.CASES WHERE IsTestCase() AND <structure column name> = '<value>'

Ograniczenia dotyczące stosowania wstrzymanie

  • Aby użyć wstrzymanie, MiningStructureCacheMode Właściwość struktura wyszukiwania musi być ustawiona na wartość domyślną KeepTrainingCases. Jeśli zmienisz CacheMode Właściwość ClearAfterProcessing, a następnie ponownie przetworzyć struktura wyszukiwania, na partycji zostaną utracone.

  • Nie można używać partycji z modelami serii czas.Dlatego partycjonowanie jest wyłączona, jeśli utworzyć partycję i określić, że Microsoft Algorytm seria czas można utworzyć model. Partycjonowanie także jest wyłączona, jeśli struktura wyszukiwania zawiera kolumna klucz czas na przypadek lub poziom tabela zagnieżdżonej.

  • Można przypadkowo Konfigurowanie partycji, aby użyć kompletnego zestaw danych do testowania i używać żadnych danych na szkolenia z zakresu.However, Analysis Services will raise an error so that you can correct the problem.Analysis Services also warns you when the structure is processed if more than 50 percent of the data has been held out for testing.

  • W większości przypadków wstrzymanie domyślnej wartości 30 zapewnia dobrą równowagi między szkolenia i testowania danych.Istnieje nie prosty sposób, aby określić, jak duży zestaw danych powinien być zapewnienie wystarczającej szkolenia lub jak małe zestaw szkoleniowy należy unikać nadmierne dopasowanie.Jednak po utworzonej modelu umożliwia krzyżowe sprawdzanie poprawności ocenia zestaw danych w odniesieniu do określonego modelu.Aby uzyskać więcej informacji zobaczkrzyżowe sprawdzanie poprawności (Analysis Services — wyszukiwanie danych).

  • Oprócz właściwości wymienione w powyższej tabela, a właściwość tylko do odczytu HoldoutActualSize, jest dostępnych w AMO i XML DDL. Jednak rzeczywisty rozmiar partycji nie można określić dokładnie aż po przetworzeniu struktury, dlatego należy sprawdzić czy model został przetworzony, przed pobraniem wartości HoldoutActualSize Właściwość.