Freigeben über


Beispieldaten (SQL Server Data Mining-Add-Ins)

Assistent zum Partitionieren von Daten im Menüband

Mit dem Assistenten für Beispieldaten können Sie Ihre Quelldaten einfach in zwei Sätze unterteilen: einen zum Erstellen (Trainieren) des Modells und einen zum Testen des Modells. Dieser Assistent bietet auch eine Option für die Entnahme neuer Stichproben von den Daten, um ein neues Dataset zu erstellen, das das Ziel besser wiedergibt.

Das Erstellen der richtigen Daten zum Trainieren und Testen Ihrer Modelle ist ein wichtiger Bestandteil beim Data Mining. Ohne die richtigen Tools kann diese Aufgabe jedoch mühsam sein. Der Assistent führt eine geschichtete Stichprobe aus, um zu überprüfen, ob die Trainings- und Testsätze gut ausgewogen sind.

Zufällige Stichprobenentnahme und Überquotierung

. Die zufällige Stichprobenentnahme ist die beste Möglichkeit, sicherzustellen, dass die zum Testen eines Modells verwendeten Daten ziemlich genau den Daten entsprechen, die Sie zum Erstellen des Modells verwenden. Sie können von Beispieldaten, die in Excel oder einer externen Datenquelle gespeichert sind, zufällige Stichproben entnehmen.

Wenn Sie die Option stichprobenartig verwenden, erstellt der Assistent für Beispieldaten automatisch Trainings- und Testdatensätze und gibt sie zur späteren Referenz in separate Excel-Arbeitsblätter aus.

Wenn Ihre Daten in einer Excel-Arbeitsmappe und nicht in einer externen Datenquelle gespeichert sind, haben Sie auch die Möglichkeit, die Überstempelung zu verwenden. Mit dieser Option geben Sie einen Zielwert an, der in Ihren Daten knapp ist. Der Assistent sammelt einen ausgewogenen Satz, der mehr an diesem Zielwert enthält. Sie können den Assistenten anweisen, einen gezielten Prozentsatz zu erreichen oder eine bestimmte Anzahl von Zeilen zu erstellen.

Wenn Sie die Überstempelungsoption verwenden, erstellt der Assistent für Beispieldaten ein neues Arbeitsblatt, das die neu ausgeglichenen Beispieldaten enthält.

Verwenden des Assistenten für Beispieldaten

Trennen von Daten in Trainings- und Testsätze

  1. Klicken Sie im Menüband Data Mining auf Beispieldaten.

  2. Geben Sie auf der Seite Quelldaten auswählen an, ob sich die Daten , die Sie partitionieren möchten, in einem Excel-Bereich oder einer Tabelle oder in einer externen Datenquelle befinden.

  3. Geben Sie auf der Seite Stichprobentyp auswählen an, ob Sie Trainings- und Testdatasets per Zufallsstichprobe erstellen oder ein neues Dataset durch Übersampling erstellen möchten.

    Hinweis

    Wenn Sie eine externe Datenquelle verwenden, ist nur die Option für die zufällige Stichprobenentnahme verfügbar. Wenn Sie für externe Daten die Überquotierung verwenden möchten, können Sie die Daten über eine Excel-Datenverbindung in eine Excel-Arbeitsmappe importieren und dann den Assistenten für Beispieldaten verwenden.

  4. Legen Sie die Optionen für die ausgewählte Stichprobenmethode fest.

    • Geben Sie bei der zufälligen Stichprobenentnahme entweder einen Prozentsatz der Originaldaten an, der für Tests verwendet werden soll, oder die Gesamtanzahl von Zeilen für das Testdataset.

    • Wählen Sie für die Überquotierung die Spalte und den Wert aus, die bzw. den Sie hervorheben möchten. Geben Sie dann die Gesamtanzahl von Zeilen im neuen Dataset sowie den Prozentsatz der Zeilen im neuen Dataset, die den Zielwert enthalten sollen, an.

      Der Zielwert für die Überquotierung muss ein diskreter Wert sein. Sie können für die Überquotierung keine kontinuierlichen numerischen Daten verwenden.

  5. Übernehmen Sie auf der Seite Fertig stellen die Standardnamen für die neuen Datasets, oder geben Sie einen neuen Namen ein.

    Der Assistent erstellt daraufhin neue Arbeitsblätter für jedes Dataset.

Die meisten Assistenten des Data Mining-Clients für Excel bieten auch eine Option, mit der die Daten nach dem Zufallsprinzip in Trainings- und Testsätze unterteilt werden können. Wenn Sie jedoch die Assistenten verwenden, bleiben die Daten im gleichen Arbeitsblatt (oder in der gleichen sonstigen Datenquelle). Die Informationen darüber, ob es sich bei einer bestimmten Zeile um einen Test- oder einen Trainingsfall handelt, werden intern gespeichert. Im Gegensatz dazu werden bei Verwendung des Assistenten für Beispieldaten die Test- und Trainingsdaten zur einfachen Referenz in separate Arbeitsblätter ausgegeben.

Wenn Sie den Assistenten Schritt für Schritt durchgehen, werden diese Optionen aufgeführt:

Optionen Kommentare
Quelldaten auswählen (Dialogfeld, Data Mining-Client für Excel) Wählen Sie einen Excel-Bereich oder eine Excel-Tabelle aus, die die Daten enthalten. Wenn Sie externe Daten verwenden möchten, können die Daten relational sein, müssen aber in einer Analysis Services-Datenquelle enthalten sein. T
Stichprobentyp auswählen (Seite, Data Mining-Client für Excel) Wenn Sie eine externe Datenquelle verwenden, können Sie nur die Option für die zufällige Stichprobenentnahme verwenden. Außerdem müssen Sie die Anzahl der zeilen angeben, die im endgültigen Dataset erstellt werden sollen, indem Sie die Option Zeilenanzahl verwenden . Sie können keinen Prozentsatz der Quelldaten angeben.
Zufällige Stichprobenentnahme (Seite, Data Mining-Client für Excel) Sie können einen Prozentsatz von Zeilen (aus den Quelldaten) oder eine bestimmte Anzahl von Zeilen kopieren.
Überquotierung (Seite, Data Mining-Client für Excel) Zielzustand

Wählen Sie einen Wert aus der Liste aus, der im ursprünglichen Dataset unterrepräsentiert ist. Die Überquotierung erhöht den Anteil an Datenzeilen mit diesem Status.

Stichprobengröße

Wählen Sie die Gesamtanzahl der zu extrahierenden Zeilen aus. Dieser Wert stellt die Größe des endgültigen Datasets dar.

Weitere Optionen für Stichprobenentnahme

Wenn die Optionen zur Stichprobenentnahme in diesem Assistenten nicht Ihren Anforderungen entsprechen, verwenden Sie die Transformation zur Stichprobenentnahme von SQL Server Integration Services (SSIS), um Stichproben von Zeilen aus mehreren Datenquellen zu entnehmen.

Weitere Informationen finden Sie unter Transformation der Zeilensampling und Transformation der prozentualen Stichprobenentnahme.

Weitere Informationen

Prüfliste der Vorbereitung für Data Mining