Miningstrukturen (Analysis Services - Data Mining)

Artikel
07/30/2013

In der Miningstruktur werden die Daten definiert, aus denen Miningmodelle erstellt werden. Es werden die Quelldatensicht, die Anzahl und der Typ von Spalten sowie eine optionale Partitionierung in Trainings- und Testsätze angegeben. Eine einzelne Miningstruktur kann mehrere Miningmodelle unterstützen, die die gleiche Domäne verwenden. In der folgenden Abbildung ist die Beziehung der Data Mining-Struktur zur Datenquelle und zu den dazugehörigen Data Mining-Modellen dargestellt.

Datenverarbeitung: Quelle-zu-Struktur-zu-Modell

Die Miningstruktur in der Abbildung basiert auf einer Datenquelle, die mehrere Tabellen oder Sichten enthält, die über das Feld CustomerID verknüpft sind. Eine Tabelle enthält Informationen zu Kunden, wie geografische Region, Alter, Einkommen und Geschlecht, während die dazugehörige geschachtelte Tabelle mehrere Zeilen mit Zusatzinformationen zu den einzelnen Kunden enthält, z. B. vom Kunden gekaufte Produkte. Die Abbildung zeigt, dass mehrere Modelle für eine Miningstruktur erstellt werden können und dass die Modelle unterschiedliche Spalten der Struktur verwenden können.

Modell 1 Verwendet CustomerID, Einkommen, Alter, Region und filtert die Daten nach der Region.

Modell 2 Verwendet CustomerID, Einkommen, Alter, Region und filtert die Daten nach dem Alter.

Model 3 Verwendet CustomerID, Alter, Geschlecht und die geschachtelte Tabelle ohne Filter.

Da die Modelle unterschiedliche Spalten als Eingabe verwenden und zwei Modelle die im Modell verwendeten Daten mithilfe von Filtern zusätzlich beschränken, können die Modelle stark unterschiedliche Ergebnisse aufweisen, obwohl sie auf denselben Daten basieren. Beachten Sie, dass die Spalte CustomerID in allen Modellen erforderlich ist, da es sich um die einzige Spalte handelt, die als Fallschlüssel verwendet werden kann.

In diesem Abschnitt wird die grundlegende Architektur der Data Mining-Strukturen erläutert, z. B., wie Sie eine Miningstruktur definieren, die Struktur mit Daten auffüllen und diese für die Modellerstellung einsetzen. Weitere Informationen zum Verwalten oder Exportieren vorhandener Data Mining-Strukturen finden Sie unter Verwaltung von Data Mining-Lösungen und -Objekten.

Definieren einer Miningstruktur

Zum Einrichten einer Data Mining-Struktur müssen folgende Schritte ausgeführt werden:

Definieren Sie eine Datenquelle.
Wählen Sie Datenspalten aus, die in die Struktur aufgenommen werden sollen (nicht alle Spalten müssen dem Modell hinzugefügt werden), und definieren Sie einen Schlüssel.
Definieren Sie einen Schlüssel für die Struktur, einschließlich des Schlüssels für die geschachtelte Tabelle (sofern vorhanden).
Geben Sie an, ob die Quelldaten in einen Trainings- und einen Testsatz unterteilt werden sollen. Dies ist ein optionaler Schritt.
Verarbeiten Sie die Struktur.

Diese Schritte werden in den folgenden Abschnitten ausführlicher beschrieben.

Datenquellen für Miningstrukturen

Beim Definieren einer Miningstruktur können Sie Spalten verwenden, die in einer vorhandenen Datenquellensicht verfügbar sind. Eine Datenquellensicht ist ein freigegebenes Objekt, mit dem Sie mehrere Datenquellen kombinieren und als einzelne Quelle verwenden können. Die ursprünglichen Datenquellen sind für Clientanwendungen nicht sichtbar, und Sie können die Eigenschaften der Datenquellensicht verwenden, um Datentypen zu ändern und um Aggregationen oder Aliase für Spalten zu erstellen.

Weitere Informationen zu Datenquellensichten finden Sie unter Datenquellensichten (Analysis Services – Mehrdimensionale Daten).

Wenn Sie mehrere Miningmodelle aus derselben Miningstruktur erstellen, können in den Modellen unterschiedliche Spalten aus der Struktur verwendet werden. Sie können z. B. eine einzelne Struktur erstellen und dann auf deren Grundlage separate Entscheidungsstruktur- und Clusteringmodelle erstellen, wobei in jedem Modell unterschiedliche Spalten verwendet und verschiedene Attribute vorhergesagt werden.

Darüber hinaus kann jedes Modell die Spalten der Struktur auf unterschiedliche Weise verwenden. Die Datenquellensicht könnte z. B. eine Spalte "Einkommen"enthalten, die Sie je nach Modell auf unterschiedliche Weise speichern können.

Die Data Mining-Struktur speichert die Definition der Datenquelle und die darin enthaltenen Spalten in Form von Bindungen mit der Datenquelle. Weitere Informationen zu Datenquellenbindungen finden Sie unter Datenquellen und Bindungen (SSAS – mehrdimensional). Sie können eine Data Mining-Struktur auch erstellen, ohne diese an eine bestimmte Datenquelle zu binden, indem Sie die DMX-Anweisung CREATE MINING STRUCTURE (DMX) verwenden.

Miningstrukturspalten

Die Grundbausteine der Miningstruktur sind die Miningstrukturspalten, die die in der Datenquelle enthaltenen Daten beschreiben. Diese Spalten enthalten Informationen, z. B. über den Datentyp, den Inhaltstyp und die Verteilung der Daten. In der Miningstruktur sind keine Informationen über die Verwendung der Spalten für bestimmte Miningmodelle enthalten, und auch keine Informationen über den Algorithmustyp, der zum Erstellen eines Modells verwendet wird. Diese Informationen werden im Miningmodell selbst definiert.

Eine Miningstruktur kann auch geschachtelte Tabellen enthalten. Eine geschachtelte Tabelle stellt eine 1:n-Beziehung zwischen der Entität eines Falls und der damit verknüpften Attribute dar. Bei Informationen beispielsweise, die beschreiben, dass sich ein Kunde in einer Tabelle und die Einkäufe des Kunden in einer anderen Tabelle befinden, können Sie geschachtelte Tabellen verwenden, um die Informationen in einem einzelnen Fall zu kombinieren. Der Kundenbezeichner ist die Entität, und die Einkäufe sind die verknüpften Attribute. Weitere Informationen zum Verwenden von geschachtelten Tabellen finden Sie unter Geschachtelte Tabellen (Analysis Services - Data Mining).

Um in SQL Server-Datentools (SSDT) ein Data Mining-Modell zu erstellen, müssen Sie zuerst eine Data Mining-Struktur erstellen. Der Data Mining-Assistent führt Sie durch die Erstellung einer Data Mining-Struktur, die Datenauswahl und das Hinzufügen eines Miningmodells.

Wenn Sie mithilfe der Data Mining-Erweiterungen (DMX) ein Miningmodell erstellen, können Sie das Modell und die darin enthaltenen Spalten angeben. DMX erstellt dann automatisch die erforderliche Data Mining-Struktur. Weitere Informationen finden Sie unter CREATE MINING MODEL (DMX).

Weitere Informationen finden Sie unter Miningstrukturspalten.

Unterteilen der Daten in einen Trainings- und Testsatz

Wenn Sie die Daten für die Miningstruktur definieren, können Sie auch angeben, dass einige Daten für Trainings- und andere für Testzwecke verwendet werden sollen. Daher ist es nicht mehr erforderlich, die Daten vor der Erstellung einer Data Mining-Struktur zu unterteilen. Während Sie das Modell erstellen, können Sie stattdessen angeben, dass ein bestimmter Prozentsatz der Daten für Testzwecke zurückgehalten und der Rest zum Training verwendet werden soll, oder Sie können eine bestimmte Anzahl von Fällen als Testdataset angeben. Die Informationen zu den Trainings- und Testdatasets werden mit der Miningstruktur zwischengespeichert. Folglich kann derselbe Testsatz für alle Modelle verwendet werden, die auf dieser Struktur basieren.

Weitere Informationen finden Sie unter Trainings- und Testdatasets.

Aktivieren von Drillthrough

Sie können der Miningstruktur Spalten hinzufügen, auch wenn Sie nicht beabsichtigen, die betreffenden Spalten in einem bestimmten Miningmodell zu verwenden. Dies ist beispielsweise hilfreich, wenn Sie die E-Mail-Adressen von Kunden in einem Clustermodell abrufen möchten, ohne die E-Mail-Adresse in der Analyse zu verwenden. Um eine Spalte während der Analyse- und Vorhersagephase zu ignorieren, fügen Sie sie der Struktur hinzu, ohne jedoch das Verwendungsflag für die Spalte anzugeben. Alternativ können Sie das Verwendungsflag auf Ignorieren festlegen. Auf diese Weise gekennzeichnete Daten können weiterhin in Abfragen verwendet werden, wenn Drillthroughs für das Miningmodell aktiviert wurden und wenn Sie über die entsprechenden Berechtigungen verfügen. Beispielsweise können Sie die Cluster überprüfen, die sich aus der Analyse aller Kunden ergeben, und dann eine Drillthroughabfrage ausführen, um die Namen und E-Mail-Adressen der in einem bestimmten Cluster enthaltenen Kunden abzurufen. Dies ist möglich, obwohl diese Datenspalten nicht für die Modellerstellung verwendet wurden.

Weitere Informationen finden Sie unter Drillthroughabfragen (Data Mining).

Verarbeiten von Miningstrukturen

Eine Miningstruktur ist bis zu ihrer Verarbeitung lediglich ein Metadatencontainer. Beim Verarbeiten einer Miningstruktur erstellt Analysis Services einen Cache, in dem statistische Informationen zu den Daten, Informationen zur Diskretisierung kontinuierlicher Attribute sowie weitere Informationen gespeichert werden, die später von Miningmodellen verwendet werden. Diese Zusammenfassungsinformationen werden im Miningmodell selbst nicht gespeichert, stattdessen verweist es auf die Informationen, die bei der Verarbeitung der Miningstruktur zwischengespeichert wurden. Sie müssen die Struktur folglich nicht jedes Mal neu verarbeiten, wenn Sie einer vorhandenen Struktur ein neues Modell hinzufügen; stattdessen können Sie einfach das Modell verarbeiten.

Sie können sich dazu entschließen, den Inhalt dieses Caches nach der Verarbeitung zu verwerfen, wenn der Cache sehr groß ist oder Sie detaillierte Daten entfernen möchten. Wenn keine Daten zwischengespeichert werden sollen, können Sie die CacheMode-Eigenschaft der Miningstruktur in ClearAfterProcessing ändern. Der Cache wird dann gelöscht, nachdem alle Modelle verarbeitet wurden. Wenn Sie die CacheMode-Eigenschaft auf ClearAfterProcessing setzen, wird der Drillthrough des Miningmodells deaktiviert.

Nachdem Sie den Cache gelöscht haben, können Sie der Miningstruktur jedoch keine neuen Modelle mehr hinzuzufügen. Wenn Sie der Struktur ein neues Miningmodell hinzufügen oder die Eigenschaften vorhandener Modelle ändern, müsste die Miningstruktur zuerst erneut verarbeitet werden. Weitere Informationen finden Sie unter Anforderungen und Überlegungen zur Verarbeitung (Data Mining).

Anzeigen von Miningstrukturen

Sie können keine Viewer verwenden, um die Daten in einer Miningstruktur zu durchsuchen. In SQL Server-Datentools (SSDT) können Sie allerdings die Registerkarte Miningstruktur im Data Mining-Designer verwenden, um die Strukturspalten und deren Definitionen anzuzeigen. Weitere Informationen finden Sie unter Data Mining-Designer.

Wenn Sie die Daten in der Miningstruktur überprüfen möchten, können Sie mithilfe der Data Mining-Erweiterungen (DMX) Abfragen erstellen. So gibt zum Beispiel die Anweisung SELECT * FROM <structure>.CASES alle Daten in der Miningstruktur zurück. Zum Abrufen dieser Informationen muss die Miningstruktur verarbeitet und die Ergebnisse der Verarbeitung müssen zwischengespeichert worden sein.

Die Anweisung SELECT * FROM <model>.CASES gibt die gleichen Spalten zurück, aber nur für die Fälle in dem betreffenden Modell. Weitere Informationen finden Sie unter SELECT FROM <Struktur>.CASES und SELECT FROM <model>.CASES (DMX).

Verwenden von Data Mining-Modellen mit Miningstrukturen

Ein Data Mining-Modell wendet einen Miningmodellalgorithmus für die Daten an, welcher durch eine Miningstruktur dargestellt wird. Ein Miningmodell ist ein Objekt, das einer bestimmten Miningstruktur angehört. Es erbt alle Werte der durch die Miningstruktur definierten Eigenschaften. Das Modell kann alle Spalten oder eine Teilmenge der Spalten der Miningstruktur enthalten. Sie können einer Struktur mehrere Kopien einer Strukturspalte hinzufügen. Außerdem können Sie einem Modell mehrere Kopien einer Strukturspalte hinzufügen und dann den einzelnen Strukturspalten im Modell verschiedene Namen, so genannte Aliase, zuweisen. Weitere Informationen zum Zuweisen von Aliasen zu Strukturspalten finden Sie unter Erstellen eines Alias für eine Modellspalte und Miningmodelleigenschaften.

Weitere Informationen zur Architektur von Data Mining-Modellen finden Sie unter Miningmodelle (Analysis Services – Data Mining).

Aufgaben	Links
Arbeiten mit relationalen Miningstrukturen	Erstellen einer neuen relationalen Miningstruktur Hinzufügen einer geschachtelten Tabelle zu einer Miningstruktur
Arbeiten mit Miningstrukturen, die auf Cubes basieren	Erstellen einer neuen OLAP-Miningstruktur Filtern des Quellcubes für eine Miningstruktur
Arbeiten mit Spalten in einer Miningstruktur	Hinzufügen von Spalten zu einer Miningstruktur Entfernen von Spalten aus einer Miningstruktur
Ändern oder Abfragen von Eigenschaften und Daten einer Miningstruktur	Ändern der Eigenschaften einer Miningstruktur
Arbeiten mit den zugrunde liegenden Datenquellen und Aktualisieren von Quelldaten	Bearbeiten der für eine Miningstruktur verwendeten Datenquellensicht Verarbeiten einer Miningstruktur

Siehe auch

Konzepte

Datenbankobjekte (Analysis Services - Mehrdimensionale Daten)

Miningmodelle (Analysis Services – Data Mining)

Freigeben über