Freigeben über


Erstellen einer Sequenz-Clustering-Mining-Modellstruktur (Ein Tutorial zum Data Mining für Fortgeschrittene)

Der erste Schritt beim Erstellen eines Sequenzclustering-Miningmodells besteht darin, den Data Mining-Assistenten zu verwenden, um eine neue Miningstruktur und ein Miningmodell basierend auf dem Microsoft Sequence Clustering-Algorithmus zu erstellen.

Sie verwenden dieselbe Datenquellenansicht, die Sie für die Marktkorbanalyse verwendet haben, aber Sie fügen eine Spalte hinzu, die den sequence Bezeichner enthält. In diesem Szenario bedeutet die Sequenz die Reihenfolge, in der der Kunde artikel zum Warenkorb hinzugefügt hat.

Sie fügen auch einige Spalten hinzu, die in einem der Modelle verwendet werden, um Kunden nach demografischen Daten zu gruppieren.

So erstellen Sie eine Sequenzclusterstruktur und ein Sequenzclusteringmodell

  1. Klicken Sie im Projektmappen-Explorer in SQL Server Data Tools (SSDT) mit der rechten Maustaste auf Miningstrukturen , und wählen Sie "Neue Miningstruktur" aus.

  2. Klicken Sie auf der Seite "Willkommen beim Data Mining-Assistenten " auf "Weiter".

  3. Überprüfen Sie auf der Seite "Definitionsmethode auswählen", ob aus einer vorhandenen relationalen Datenbank oder einem vorhandenen Data Warehouse ausgewählt ist, und klicken Sie dann auf "Weiter".

  4. Überprüfen Sie auf der Seite " Data Mining-Struktur erstellen ", ob die Option "Miningstruktur mit einem Miningmodell erstellen " ausgewählt ist. Klicken Sie als Nächstes auf die Dropdownliste für die Option, welche Data Mining-Technik möchten Sie verwenden?, und wählen Sie "Microsoft Sequence Clustering" aus. Klicke auf Weiter.

    Die Seite " Datenquellenansicht auswählen " wird angezeigt. Wählen Sie unter "Verfügbare Datenquellenansichten" die Option Ordersaus.

    Bestellungen sind die gleiche Datenquellenansicht, die Sie für das Marktkorbszenario verwendet haben. Wenn Sie diese Datenquellenansicht nicht erstellt haben, lesen Sie das Hinzufügen einer Datenquellenansicht mit verschachtelten Tabellen (Mittleres Lernprogramm für Data Mining).

  5. Klicke auf Weiter.

  6. Aktivieren Sie auf der Seite "Tabellentypen angeben" das Kontrollkästchen "Case" neben der Tabelle "vAssocSeqOrders", und aktivieren Sie das Kontrollkästchen "Geschachtelt" neben der Tabelle "vAssocSeqLineItems". Klicke auf Weiter.

    Hinweis

    Wenn ein Fehler auftritt, wenn Sie die Kontrollkästchen " Groß- /Kleinschreibung" oder " Geschachtelt " aktivieren, ist die Verknüpfung in der Datenquellenansicht möglicherweise nicht korrekt. Die geschachtelte Tabelle vAssocSeqLineItems muss durch eine n:1-Verknüpfung mit der Falltabelle vAssocSeqOrders verbunden sein. Sie können die Beziehung bearbeiten, indem Sie mit der rechten Maustaste auf die Verknüpfungslinie klicken und dann die Richtung der Verknüpfung umkehren. Weitere Informationen finden Sie im Dialogfeld "Beziehung erstellen oder bearbeiten" (Analysis Services – Multidimensional Data).

  7. Wählen Sie auf der Seite " Schulungsdaten angeben " die Spalten für die Verwendung im Modell aus, indem Sie wie folgt ein Kontrollkästchen aktivieren:

    • IncomeGroup Aktivieren Sie das Kontrollkästchen Eingabe.

      Diese Spalte enthält interessante Informationen zu den Kunden, die Sie für das Clustering verwenden können. Sie werden es im ersten Modell verwenden und dann im zweiten Modell ignorieren.

    • OrderNumber Aktivieren Sie das Key Kontrollkästchen.

      Dieses Feld wird als Identifikator für die Falltabelle oder Key verwendet. Im Allgemeinen sollten Sie niemals das Schlüsselfeld der Falltabelle als Eingabe verwenden, da der Schlüssel eindeutige Werte enthält, die für das Clustering nicht nützlich sind.

    • Region Aktivieren Sie das Kontrollkästchen "Eingabe ".

      Diese Spalte enthält interessante Informationen zu den Kunden, die Sie für das Clustering verwenden können. Sie werden es im ersten Modell verwenden und dann im zweiten Modell ignorieren.

    • Linenumber Aktivieren Sie die Key Kontrollkästchen "Eingabe" und " Eingabe ".

      Das Feld "LineNumber" wird als Bezeichner für die geschachtelte Tabelle verwendet, oder Sequence Key. Der Schlüssel für eine geschachtelte Tabelle muss immer für die Eingabe verwendet werden.

    • Modell Aktivieren Sie die Kontrollkästchen "Eingabe" und " Vorhersagbar" .

    Stellen Sie sicher, dass die Auswahl korrekt ist, und klicken Sie dann auf "Weiter".

  8. Überprüfen Sie auf der Seite " Spalteninhalt und Datentyp angeben ", ob das Raster die Spalten, Inhaltstypen und Datentypen enthält, die in der folgenden Tabelle angezeigt werden, und klicken Sie dann auf "Weiter".

    Tabellen/Spalten Inhaltstyp Datentyp
    Einkommensgruppe Eigenständig Text
    Bestellnummer Schlüssel Text
    Region Eigenständig Text
    vAssocSeqLineItems
    Zeilennummer Tastenkombination Lang
    Modell Eigenständig Text
  9. Ändern Sie auf der Seite " Testsatz erstellen " den Prozentsatz der Daten für Tests auf 20, und klicken Sie dann auf "Weiter".

  10. Geben Sie auf der Seite "Assistent abschließen" für den Namen der MiningstrukturSequence Clustering with Region ein.

  11. Geben Sie für den Namen des MiningmodellsSequence Clustering with Regionein.

  12. Aktivieren Sie das Feld "Drillthrough zulassen ", und klicken Sie dann auf "Fertig stellen".

Nächste Aufgabe in der Lektion

Verarbeiten des Sequenzclusteringmodells

Siehe auch

Datenanalyse-Designer
Microsoft Sequence Clustering Algorithm