Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Verwenden Sie die Option "Erweitert" in der Gruppe " Datenmodellierung ", wenn Sie einen Datensatz erstellen möchten, der für die Analyse verwendet wird, ohne unbedingt ein Modell zu erstellen. Dies ist nützlich, wenn Sie mit verschiedenen Algorithmen experimentieren möchten.
Nachdem Sie die Miningstruktur erstellt haben, verwenden Sie den Assistenten zum Hinzufügen von Modell zu Struktur , um ein Modell basierend auf dieser Struktur zu erstellen. Sie können auch neue Modelle mit dem Data Mining Advanced Query Editor erstellen.
Sie können diese Option auch verwenden, wenn Sie Modelle mit einem der erweiterten Algorithmen erstellen möchten, die von Analysis Services unterstützt, aber nicht über einen Assistenten verfügbar sind, z. B. lineare Regression oder Sequenzclustering, oder wenn Sie einen benutzerdefinierten Algorithmus verwenden.
Hinweis
Wenn Sie die Miningstruktur erstellen, können Sie auch einen zufällig ausgewählten Testdatensatz einrichten, den Sie verwenden können, um alle Ihre Modelle zu überprüfen. Dies ist praktisch, da Sie die Modellgenauigkeit einfach mit einem gemeinsamen Dataset vergleichen können. Wählen Sie einfach die Option aus, teilen Sie Daten in Schulungs- und Testsätze auf, und geben Sie einen geeigneten Prozentsatz der Daten an, die für Tests reserviert werden sollen, in der Regel etwa 30 Prozent.
Verwenden Sie den Assistenten, um eine Miningstruktur zu erstellen.
Klicken Sie im Menüband "Data Mining" auf "Erweitert", und wählen Sie "Struktur erstellen" aus.
Geben Sie im Dialogfeld " Quelldaten auswählen " den Excel-Bereich, die Excel-Datentabelle oder die externe Datenquelle an, die die daten enthält, die Sie für die Analyse verwenden möchten.
Klicke auf Weiter.
Überprüfen Sie im Dialogfeld " Spalten auswählen " die Liste der Spalten, die in der ausgewählten Datenquelle verfügbar sind.
Klicken Sie auf den Pfeil rechts neben dem Spaltennamen, um die Verwendung der Spalte zu ändern, und wählen Sie aus den folgenden Werten aus:
Schlüssel. Für jedes Modell ist mindestens ein Schlüssel erforderlich.
Schlüsselzeit. Diese Option ist nur für Prognosemodelle verfügbar, bei denen sie erforderlich ist.
Einschließen. Gibt an, dass die Spalte in der Miningstruktur verfügbar gemacht werden soll, aber keine Schlüsselspalte ist.
Nicht verwenden. Gibt an, dass die Spalte nicht in die Miningstruktur einbezogen werden soll.
Denken Sie daran, dass Sie spalten beim Erstellen des Modells immer ignorieren können, aber zum späteren Hinzufügen von Spalten müssen Sie die Struktur und das Modell erneut verarbeiten.
Klicken Sie auf die Schaltfläche "Durchsuchen (...) ", um den Inhaltstyp, den Datentyp und die Modellierungskennzeichnungen festzulegen.
Hinweis
Wenn die Spalte numerische Daten enthält, sollten Sie dieses Dialogfeld immer öffnen, um sicherzustellen, dass der richtige Datentyp ausgewählt wird. In einigen Fällen möchten Sie die Eingabedaten auch dann, wenn es sich um eine Zahl handelt, als kategorisierte Variable oder als diskreter Wert anstelle einer fortlaufenden Zahl behandeln.
Eine Postleitzahlspalte kann z. B. standardmäßig als fortlaufender langer Datentyp aufgeführt werden, um jedoch bessere Ergebnisse zu erzielen, können Sie angeben, dass sie als diskreter Textwert behandelt wird.
Weitere Informationen finden Sie im Abschnitt zu Inhaltstypen in der Auswahl von Daten für Data Mining.
Klicken Sie auf OK, um das Dialogfeld zu schließen.
Klicke auf Weiter.
Je nachdem, welche Art von Daten Sie verwenden, können Sie den Assistenten nach diesem Schritt abschließen. Springen Sie in diesem Fall zur Seite "Fertig stellen ", um Ihre Miningstruktur zu benennen.
Für andere Modelle haben Sie die zusätzliche Möglichkeit, einen Testdatensatz zu erstellen.
Geben Sie im Dialogfeld "In Schulungs- und Testdatensätze aufteilen " an, wie Ihre Daten partitioniert werden sollen. Standardmäßig werden 30 Prozent der Daten zum Testen verwendet.
Geben Sie optional die maximale Anzahl von Zeilen ein, die zum Testen verwendet werden sollen.
Klicke auf Weiter.
Geben Sie im Dialogfeld "Fertig stellen " einen Namen und eine Beschreibung für die neue Miningstruktur ein.
Klicken Sie auf Fertig stellen.
Verwandte Optionen
| Auswahlmöglichkeit | Kommentare |
|---|---|
| Dialogfeld "Quelldaten auswählen" | Wenn Sie eine Excel-Tabelle auswählen, sollten Sie angeben, ob die Daten bereits Überschriften enthalten. Wenn Sie dies überspringen, wird die erste Datenzeile als Spaltenname verwendet. Wenn Sie die Option Externe Datenquelle verwenden, können Sie eine beliebige Art von Daten verwenden, die in einer Analysis Services-Datenquelle definiert werden können. Das Dialogfeld im Add-In zum Erstellen neuer Datenquellen enthält jedoch nicht den vollständigen Bereich von Datenquellen, die von Analysis Services unterstützt werden. Daher wird empfohlen, die Datenquellen im Voraus auf dem Analysis Services-Server zu erstellen und dann mithilfe der Add-Ins eine Verbindung herzustellen. |
| Dialogfeld 'Datenquellenabfrage-Editor' | Nachdem Sie eine Verbindung mit der angegebenen Datenquelle hergestellt haben, können Sie Spalten hinzufügen oder eine benutzerdefinierte Abfrage erstellen, um benutzerdefinierte Spalten zu generieren. |
| Aufteilen von Daten in Schulungs- und Testdatensätze | Ein empfohlener Wert für Schulungen im Vergleich zu Testsätzen beträgt 70 Prozent für Schulungen und 30 Prozent für Tests; Wenn Sie jedoch viele Daten haben, können Sie eine maximale Anzahl von Zeilen für Tests angeben. |
| Dialogfeld fertigstellen | Die Optionen für Drillthrough sind für einige Modelltypen verfügbar und sind sehr nützlich, wenn Sie Detailspalten in Ihre Miningstruktur aufgenommen haben. Wenn Sie z. B. ein Clustermodell erstellen, können Sie Details wie Name oder E-Mail-Adresse für Drillthrough, aber keine Analyse einschließen, um Kunden in einem bestimmten Cluster leichter zu kontaktieren. |
Festlegen der Spaltennutzung im Assistenten zum Erstellen einer Miningstruktur
Wenn Sie eine neue Miningstruktur erstellen, können Sie angeben, welche Spalten in der Datenquelle in der Miningstruktur enthalten sein sollen und wie diese Spalten verwendet werden sollen. Denken Sie daran, dass eine Miningstruktur mehrere Miningmodelle unterstützen kann.
| Werte | BESCHREIBUNG |
|---|---|
| Einschließen | Gibt an, dass die Spalte Daten enthält, die für die Analyse oder Vorhersage verwendet werden können. |
| Schlüssel | Gibt an, dass die Spalte eine Transaktions-ID, eine Datenreihen-ID oder einen anderen Schlüssel enthält, der für die Verarbeitung erforderlich ist. Für alle Algorithmen ist eine Schlüsselspalte erforderlich. Einige Algorithmen erlauben jedoch nur einen einzelnen Schlüssel, während andere mehrere Schlüssel zulassen. Wenn die Spalte einen Schlüssel enthält, aber nicht für die Verarbeitung erforderlich ist, wählen Sie "Nicht verwenden" aus. |
| Schlüsselzeit | Gibt an, dass die Spalte ein Datum oder einen anderen numerischen Wert enthält, mit dem Elemente in einer Zeitreihe eindeutig identifiziert werden können. |
| Nicht verwenden | Gibt an, dass die Spalte ignoriert werden soll. Die Daten in der Spalte werden nicht verarbeitet. |
Um ein Modell ordnungsgemäß zu verarbeiten, muss der Algorithmus wissen, welche Spalte die Schlüsselspalte ist, die jede Zeile eindeutig identifiziert, welche Spalte die Zielspalte zum Erstellen von Vorhersagen ist, wenn Sie ein vorhersagbares Modell erstellen und welche Spalten als Eingabespalten verwendet werden sollen, um die Beziehungen zu erstellen, die die Zielspalte vorhersagen.
Spalten, die mit 'Nicht verwenden' gekennzeichnet sind, sind in der Miningstruktur nicht vorhanden.
Wenn Sie Spalten hinzufügen, die nicht erforderlich sind oder schlechte Werte aufweisen, kann sich dies negativ auf die Ergebnisse der Analyse auswirken. Achten Sie daher darauf, nur die relevanten Spalten einzuschließen. Denken Sie jedoch daran, dass die Spalten, die Sie nicht in der Miningstruktur verwenden, für die Abfrage nicht verfügbar sind.
Spalten, die als Typ Include angegeben sind, werden in die Miningstruktur aufgenommen und können später für die Analyse oder Vorhersage in den Miningmodellen verwendet werden.
Wenn Sie nicht sicher sind, ob Sie die Spalte verwenden müssen, können Sie die Spalte immer in die Miningstruktur einschließen und dann ein Miningmodell erstellen, das diese Spalte nicht verwendet. Sie können beispielsweise eine Telefonnummernspalte in Ihre Daten einfügen, um später referenziert zu werden, aber erstellen Sie ein Clustermodell, das Telefonnummern ignoriert. Nachdem die Cluster erstellt wurden, können Sie eine Abfrage erstellen, die die Telefonnummern von Personen zurückgibt, die zu einem bestimmten Cluster gehören.
Für alle Algorithmen ist eine Schlüsselspalte erforderlich. Die Werte in der Spalte "Schlüssel" müssen eindeutig sein. Eine Schlüsselzeitspalte ist nur für Prognose- oder Zeitreihenmodelle erforderlich. .
Anforderungen
Zum Erstellen einer Data Mining-Struktur benötigen Sie eine Verbindung mit einer Instanz von Analysis Services. Eine Verbindung ist auch dann erforderlich, wenn Sie mit temporären Strukturen arbeiten. Weitere Informationen zum Erstellen oder Ändern einer Verbindung finden Sie unter Herstellen einer Verbindung mit Quelldaten (Data Mining Client für Excel).