Beispieldaten (SQL Server Data Mining-Add-Ins)

Assistent für Partitionsdaten im Data Mining-Menüband

Der Beispieldaten-Assistent erleichtert das Aufteilen ihrer Quelldaten in zwei Gruppen, eine zum Erstellen (Schulung) des Modells und eine zum Testen des Modells. Dieser Assistent bietet auch eine Option zum Resampling der Daten, um einen neuen Datensatz zu erstellen, der Ihr Ziel besser darstellt.

Das Erstellen der richtigen Art von Daten für Schulungen und Tests Ihrer Modelle ist ein wichtiger Bestandteil des Data Mining, aber einer, der ohne die richtigen Tools mühsam sein kann. Der Assistent führt geschichtete Stichproben durch, um sicherzustellen, dass die Trainings- und Testsätze gut ausgewogen sind.

Zufälliges Sampling und Übersampling

. Das zufällige Sampling ist die beste Methode, um sicherzustellen, dass die Daten, die Sie zum Testen eines Modells verwenden, die Daten, die Sie zum Erstellen des Modells verwenden, fair darstellen. Sie können zufällige Beispieldaten verwenden, die in Excel oder in einer externen Datenquelle gespeichert sind.

Wenn Sie die Option zum Zufälligen Sampling verwenden, erstellt der Assistent " Beispieldaten " automatisch Schulungs- und Testdatensätze und gibt sie in separate Excel-Arbeitsblätter aus, um später zu referenzieren.

Wenn Ihre Daten in einer Excel-Arbeitsmappe und nicht in einer externen Datenquelle gespeichert sind, haben Sie auch die Möglichkeit, Übersampling zu verwenden. Mit dieser Option geben Sie einen Zielwert an, der in Ihren Daten knapp sein kann, und der Assistent sammelt einen ausgewogenen Satz, der mehr vom Zielwert enthält. Sie können den Assistenten anweisen, einen bestimmten Prozentsatz zu erreichen oder eine bestimmte Anzahl von Zeilen zu erstellen.

Wenn Sie die Option "Oversampling" verwenden, erstellt der Assistent " Beispieldaten " ein neues Arbeitsblatt, das die neu ausgeglichenen Beispieldaten enthält.

Verwenden des Beispieldaten-Assistenten

So trennen Sie Daten in Schulungs- und Testsätze

Klicken Sie im Menüband "Data Mining " auf "Beispieldaten".
Geben Sie auf der Seite " Quelldaten auswählen " an, ob sich die zu partitionierenden Daten in einem Excel-Bereich oder in einer externen Datenquelle befinden.
Geben Sie auf der Seite " Samplingtyp auswählen " an, ob Sie Schulungs- und Testdatensätze durch zufälliges Sampling erstellen oder einen neuen Datensatz durch Übersampling erstellen möchten.

Hinweis

Wenn Sie eine externe Datenquelle verwenden, ist nur die Zufällige Samplingoption verfügbar. Wenn Sie das Übersampling mit externen Daten verwenden möchten, können Sie die Daten mithilfe einer Excel-Datenverbindung in eine Excel-Arbeitsmappe importieren und dann den Beispieldaten-Assistenten verwenden.
Legen Sie spezifische Optionen für die ausgewählte Samplingmethode fest.
- Geben Sie für zufälliges Sampling entweder einen Prozentsatz der ursprünglichen Daten an, die für Tests verwendet werden sollen, oder die Gesamtanzahl der Zeilen, die im Testdatensatz verwendet werden sollen.
- Wählen Sie zum Überstempeln die Spalte und den Wert aus, die Sie hervorheben möchten. Geben Sie dann die Gesamtanzahl der Zeilen im neuen Datensatz und den Prozentsatz der Zeilen im neuen Dataset an, der den Zielwert enthalten soll.
  
  Der Zielwert für den Übersampling muss ein diskreter Wert sein; Sie können keine fortlaufenden numerischen Daten überschreiben.
Übernehmen Sie auf der Seite "Fertig stellen" die Standardnamen für die neuen Datensätze, oder geben Sie einen neuen Namen ein.

Der Assistent erstellt neue Arbeitsblätter für jedes Datenset.

Die meisten Assistenten im Data Mining-Client für Excel bieten auch die Möglichkeit, Ihre Daten in zufällige Schulungs- und Testdatensätze zu trennen. Wenn Sie jedoch die Assistenten verwenden, bleiben Ihre Daten auf demselben Arbeitsblatt (oder einer anderen Datenquelle), und die Informationen darüber, ob es sich bei einer bestimmten Zeile um einen Testfall oder einen Trainingsfall handelt, werden intern gespeichert. Im Gegensatz dazu werden beim Verwenden des Beispieldaten-Assistenten die Test- und Schulungsdaten für einfache Verweise auf separate Arbeitsblätter ausgegeben.

Während Sie den Assistenten durchlaufen, stehen Ihnen die folgenden Optionen zur Auswahl:

Optionen	Kommentare
Dialogfeld "Quelldaten auswählen" (Data Mining-Client für Excel)	Wählen Sie einen Excel-Bereich oder eine Tabelle aus, der die Daten enthält. Wenn Sie externe Daten verwenden möchten, können die Daten relational sein, müssen aber in eine Analysis Services-Datenquelle einbezogen werden. T
Seite "Samplingtyp auswählen" (Data Mining-Client für Excel)	Wenn Sie eine externe Datenquelle verwenden, sind Sie auf die Verwendung der Zufälligen Samplingoption beschränkt. Außerdem müssen Sie die Anzahl der Zeilen angeben, die im endgültigen Dataset erstellt werden sollen, indem Sie die Option " Zeilenanzahl " verwenden. Sie können keinen Prozentsatz der Quelldaten angeben.
Seite "Zufälliges Sampling" (Data Mining-Client für Excel)	Sie können einen Prozentsatz von Zeilen aus der Quelle oder eine bestimmte Anzahl von Zeilen kopieren.
Seite für Oversampling (Data-Mining-Client für Excel)	Sollzustand Wählen Sie einen Wert aus der Liste aus, die im ursprünglichen Dataset unterrepresentiert ist. Oversampling vergrößert den Anteil der Datenzeilen, die diesen Status enthalten. Beispielgröße Wählen Sie die Gesamtanzahl der zu extrahierenden Zeilen aus. Dieser Wert stellt die Größe des endgültigen Datasets dar.

Weitere Samplingoptionen

Wenn die Samplingoptionen in diesem Assistenten Ihre Anforderungen nicht erfüllen, können Sie die Samplingtransformation in SQL Server Integration Services (SSIS) verwenden, um Zeilen aus mehreren Datenquellen zu beispielen.

Weitere Informationen finden Sie unter Row Sampling Transformation und Percentage Sampling Transformation.

Siehe auch

Prüfliste zur Vorbereitung auf die Datenanalyse

Last updated on 2017-03-06