Freigeben über


Algorithmusparameter (Add-ins für SQL Server Data Mining)

Wenn Sie Data Mining mithilfe der Tabellenanalysetools für Excel durchführen, müssen Sie den Data Mining-Algorithmus oder parameter nicht konfigurieren. Jedes Tool analysiert Ihre Daten und wählt automatisch die optimalen Parameter aus. Wenn Sie das Modell jedoch ändern oder ein Miningmodell von Grund auf neu erstellen möchten, bietet der Data Mining-Client für Excel mehrere Optionen für die Anpassung.

  • Erstellen Sie ein Data Mining-Modell manuell, indem Sie auf "Erweitert" und dann auf " Modell zur Struktur hinzufügen" klicken.

  • Verwenden Sie einen der Modellierungs-Assistenten im Data Mining-Client, und klicken Sie auf "Parameter ", um das Verhalten der Microsoft Data Mining-Algorithmen zu steuern.

  • Klicken Sie auf "Abfrage ", um den Abfragemodell-Assistenten zu öffnen, und klicken Sie dann auf "Erweitert ", um den Data Mining Advanced Query Editor zu öffnen. In diesem Editor können Sie Modelle mithilfe von DMX-Vorlagen erstellen.

Sie können auch das Verhalten von bereits erstellten Miningmodellen ändern, oder Sie können die Ergebnisse filtern, indem Sie Parameter im Miningmodell-Viewer festlegen.

Liste der Algorithmusparameter

Alle Microsoft-Algorithmen können durch Festlegen von Parametern angepasst werden. Da die besten Parametereinstellungen von der Zusammensetzung Ihrer Daten abhängen, liegt eine vollständige Erläuterung der Auswirkungen von Änderungsparametern außerhalb des Umfangs dieses Themas.

In der folgenden Tabelle sind die Parameter aufgeführt, ihre Funktionalität beschrieben und Links zu weiteren technischen Informationen bereitgestellt.

Parametername Verwendet in BESCHREIBUNG
Automatische Erkennung der Periodizität Microsoft-Zeitreihenalgorithmus Gibt einen numerischen Wert zwischen 0 und 1 an, der zum Erkennen der Periodizität verwendet wird. Das Festlegen dieses Werts näher an 1 begünstigt die Ermittlung vieler nahezu periodischer Muster und die automatische Generierung von Periodizitätshinweisen. Der Umgang mit vielen Regelmäßigkeitshinweisen führt wahrscheinlich zu erheblich längeren Modelltrainingszeiten und genaueren Modellen. Wenn der Wert näher an 0 liegt, wird die Periodizität nur für stark periodische Daten erkannt.

Der Standardwert ist 0.6.
Clusteranzahl Microsoft Clustering-Algorithmus

Microsoft-Sequenz-Clustering-Algorithmus
Gibt die ungefähre Anzahl von Clustern an, die vom Algorithmus erstellt werden sollen. Wenn die ungefähre Anzahl von Clustern nicht aus den Daten erstellt werden kann, erstellt der Algorithmus so viele Cluster wie möglich. Das Festlegen der CLUSTER_COUNT auf 0 bewirkt, dass der Algorithmus Heuristiken verwendet, um die Anzahl der zu erstellenden Cluster am besten zu bestimmen.

Der Standardwert ist 10.
Cluster-Saatgut Microsoft Clustering-Algorithmus Gibt die Startnummer an, die zum zufälligen Generieren von Clustern für die erste Phase des Modellaufbaus verwendet wird.

Der Standardwert ist 0.
KLUSTERIERUNGSMETHODE Microsoft Clustering-Algorithmus Gibt die Clusteringmethode für den zu verwendenden Algorithmus an. Die folgenden Clusteringmethoden sind verfügbar: skalierbare EM (1), nicht skalierbare EM (2), skalierbare K-Means (3) und nicht skalierbare K-Means (4).

Der Standardwert ist 1.
Komplexitätsstrafe Microsoft Decision Trees-Algorithmus

Microsoft-Zeitreihenalgorithmus
Steuert das Wachstum des Entscheidungsbaums. Ein niedriger Wert erhöht die Anzahl der Aufteilungen, und ein hoher Wert verringert die Anzahl der Aufteilungen. Der Standardwert basiert auf der Anzahl der Attribute für ein bestimmtes Modell, wie in der folgenden Liste beschrieben:

Bei 1 bis 9 Attributen ist der Standardwert 0,5.

Bei 10 bis 99 Attributen ist der Standardwert 0,9.

Bei 100 oder mehr Attributen ist der Standardwert 0,99.

Hinweis: In Zeitreihenmodellen gilt dieser Parameter nur für Modelle, die mit dem ARTxp-Algorithmus oder gemischten Modellen erstellt werden.
ERZWUNGENER_REGRESSOR Microsoft Decision Trees-Algorithmus

Microsoft Linear Regressionsalgorithmus
Erzwingt den Algorithmus, die angegebenen Spalten als Regressoren zu verwenden, unabhängig von der Wichtigkeit der Spalten, die vom Algorithmus berechnet werden.

Hinweis: Dieser Parameter wird nur für Entscheidungsstrukturen verwendet, die ein fortlaufendes Attribut vorhersagen. Standardmäßig ist ein lineares Regressionsmodell ein Sonderfall von Entscheidungsstrukturen, die fortlaufende Attribute vorhersagen. Jedes Entscheidungsstrukturmodell kann jedoch einen Knoten enthalten, der eine lineare Regressionsformel darstellt.
Prognosemethode Microsoft-Zeitreihenalgorithmus Gibt an, ob Vorhersagen mit dem ARTxp-Algorithmus, dem ARIMA-Algorithmus oder einer Kombination aus beiden vorgenommen werden sollen.

Der Standardwert ist MIXED.
HIDDEN_NODE_RATIO (Verhältnis versteckter Knoten) Microsoft Neural Network Algorithm Gibt das Verhältnis versteckter Neuronen zu Eingabe- und Ausgabeneuronen an. Die folgende Formel bestimmt die anfängliche Anzahl von Neuronen in der ausgeblendeten Ebene:

HIDDEN_NODE_RATIO * WURZEL(Gesamtanzahl der Eingabe-Neuronen * Gesamtanzahl der Ausgabe-Neuronen)

Der Standardwert ist 4,0.
HISTORISCHE_MODELL_ANZAHL Microsoft-Zeitreihenalgorithmus Gibt die Anzahl der historischen Modelle an, die erstellt werden sollen.

Der Standardwert ist 1.
Modellhistorische Lücke Microsoft-Zeitreihenalgorithmus Gibt den Zeitabstand zwischen zwei aufeinander folgenden historischen Modellen an. Wenn Sie diesen Wert z. B. auf g festlegen, werden historische Modelle für Daten erstellt, die nach Zeitsegmenten in Intervallen von g, 2*g, 3*g usw. abgeschnitten werden.

Der Standardwert ist 10.
Zurückbehaltensprozentsatz Microsoft Logistische Regressionsalgorithmus

Microsoft Neural Network Algorithm
Gibt den Prozentsatz der Fälle innerhalb der Schulungsdaten an, mit denen der Haltefehler berechnet wird, der als Teil der Stoppkriterien beim Trainieren des Miningmodells verwendet wird.

Der Standardwert ist 30.

Hinweis: Dieser Parameter unterscheidet sich von dem Holdout-Prozentsatz, der auf eine Miningstruktur angewendet wird.
HOLDOUT_SEED Microsoft-Algorithmus für logistische Regression

Microsoft Neural Network Algorithm
Gibt eine Nummer an, die verwendet wird, um den Pseudo-Zufallsgenerator zu initialisieren, wenn der Algorithmus zufällig die Ausschlussdaten bestimmt. Wenn dieser Parameter auf 0 festgelegt ist, generiert der Algorithmus den Seed basierend auf dem Namen des Miningmodells, um sicherzustellen, dass der Modellinhalt während der Verarbeitung gleich bleibt.

Der Standardwert ist 0.

Hinweis: Dieser Parameter unterscheidet sich vom Haltewert des Seedwerts, der für eine Miningstruktur gilt.
INSTABILITÄT_SEMPFINDLICHKEIT Microsoft-Zeitreihenalgorithmus Steuert den Punkt, an dem die Vorhersageabweichung einen bestimmten Schwellenwert überschreitet, und der ARTxp-Algorithmus unterdrückt Vorhersagen. Der Standardwert ist 1.

Hinweis: Dieser Parameter gilt nur für gemischte Modelle oder Modelle, die den ARTxp-Algorithmus verwenden.
MAXIMALE_EINGABEEIGENSCHAFTEN Microsoft Clustering-Algorithmus

Microsoft Decision Trees-Algorithmus

Microsoft Linear Regressionsalgorithmus

Microsoft Naïve Bayes-Algorithmus

Microsoft Neural Network Algorithm

Microsoft Logistische Regressionsalgorithmus
Definiert die Anzahl der Eingabeattribute, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren.

Der Standardwert ist 255.
MAXIMALE_ELEMENTSET_ANZAHL Microsoft Association Algorithm Gibt die maximale Anzahl der zu produzierenden Itemsets an. Wenn keine Zahl angegeben ist, generiert der Algorithmus alle möglichen Itemsets.

Der Standardwert ist 200000.
MAXIMALE_ELEMENTMENGE_GRÖSSE Microsoft Association Algorithm Gibt die maximale Anzahl von Elementen an, die in einem Itemset zulässig sind. Durch Festlegen dieses Werts auf 0 wird angegeben, dass die Größe des Itemsets nicht begrenzt ist.

Der Standard ist „3“.
MAXIMALE_AUSGABEMERKMALE Microsoft Entscheidungsbäume-Algorithmus

Microsoft Linear Regressionsalgorithmus

Microsoft Logistische Regressionsalgorithmus

Microsoft Naïve Bayes-Algorithmus

Microsoft Neural Network Algorithm
Definiert die Anzahl der Ausgabeattribute, die der Algorithmus verarbeiten kann, bevor die Featureauswahl aufgerufen wird. Legen Sie diesen Wert auf 0 fest, um die Featureauswahl zu deaktivieren.

Der Standardwert ist 255.
MAXIMALE_SEQUENCE_ZUSTÄNDE Microsoft Sequenz-Clustering-Algorithmus Gibt die maximale Anzahl von Zuständen an, die eine Sequenz aufweisen kann. Das Festlegen dieses Werts auf eine Zahl größer als 100 kann dazu führen, dass der Algorithmus ein Modell erstellt, das keine aussagekräftigen Informationen bereitstellt.

Der Standardwert ist 64.
MAXIMUM_SERIENWERT Microsoft-Zeitreihenalgorithmus Gibt den Maximalwert an, der für Vorhersagen verwendet werden soll. Dieser Parameter wird zusammen mit MINIMUM_SERIES_VALUE verwendet, um die Vorhersagen auf einen erwarteten Bereich zu beschränken. Sie können z. B. angeben, dass die vorhergesagte Verkaufsmenge für jeden Tag niemals die Anzahl der Produkte im Bestand überschreiten soll.
MAXIMALE_ZUSTÄNDE Microsoft Clustering-Algorithmus

Microsoft Neural Network Algorithm

Microsoft-Sequenzklassifizierungs-Algorithmus
Gibt die maximale Anzahl von Attributzuständen an, die der Algorithmus unterstützt. Wenn die Anzahl der Zustände, die ein Attribut hat, größer als die maximale Anzahl von Zuständen ist, verwendet der Algorithmus die am häufigsten verwendeten Zustände des Attributs und ignoriert die verbleibenden Zustände.

Der Standardwert ist 100.
Maximale Unterstützung Microsoft Assoziationsalgorithmus Gibt die maximale Anzahl von Fällen an, in denen ein Itemset Unterstützung haben kann. Wenn dieser Wert kleiner als 1 ist, stellt der Wert einen Prozentsatz der Gesamtfälle dar. Wenn dieser Wert größer als 1 ist, stellt der Wert die absolute Anzahl von Fällen dar, die das Itemset enthalten können.

Der Standardwert ist 1.
MINIMALE WICHTIGKEIT Microsoft-Assoziationsalgorithmus Gibt den Wichtigkeitsschwellenwert für Zuordnungsregeln an. Regeln, deren Wichtigkeit kleiner als dieser Wert ist, werden herausgefiltert.
MINIMUM_ITEMSET_GRÖSSE Microsoft Association Algorithm Gibt die Mindestanzahl von Elementen an, die in einem Itemset zulässig sind.

Der Standardwert ist 1.
MINIMUM ABHÄNGIGKEITSWAHRSCHEINLICHKEIT Microsoft Naïve Bayes-Algorithmus Gibt die Minimale Abhängigkeitswahrscheinlichkeit zwischen Eingabe- und Ausgabeattributen an. Dieser Wert wird verwendet, um die Größe des Inhalts zu begrenzen, der vom Algorithmus generiert wird. Diese Eigenschaft kann von 0 bis 1 festgelegt werden. Größere Werte verringern die Anzahl der Attribute im Inhalt des Modells.

Der Standardwert ist 0.5.
Mindestwahrscheinlichkeit Microsoft Association Algorithm Gibt die Minimale Wahrscheinlichkeit an, dass eine Regel wahr ist. Das Festlegen dieses Werts auf 0,5 gibt beispielsweise an, dass keine Regel mit einer Wahrscheinlichkeit von weniger als fünfzig Prozent generiert wird.

Der Standardwert ist 0.4.
MINDESTWERT_SERIE Microsoft-Zeitreihenalgorithmus Gibt die niedrigere Einschränkung für jede Zeitreihenvorhersage an. Prognostizierte Werte sind nie kleiner als diese Einschränkung.
MINDESTUNTERSTÜTZUNG Microsoft Association Algorithm Gibt die Mindestanzahl von Fällen an, die das Itemset enthalten müssen, bevor der Algorithmus eine Regel generiert. Wenn Sie diesen Wert auf weniger als 1 festlegen, wird die Mindestanzahl der Fälle als Prozentsatz der Gesamtfälle angegeben. Wenn Sie diesen Wert auf eine ganze Zahl festlegen, die größer als 1 ist, wird die Mindestanzahl von Fällen als absolute Anzahl von Fällen angegeben, die das Itemset enthalten müssen. Der Algorithmus kann den Wert dieses Parameters erhöhen, wenn der Arbeitsspeicher begrenzt ist.

Der Standardwert ist 0.03.
MINDESTUNTERSTÜTZUNG Microsoft Clustering-Algorithmus Gibt die Mindestanzahl der Fälle in jedem Cluster an.

Der Standardwert ist 1.
MINDESTUNTERSTÜTZUNG Algorithmus für Entscheidungsbäume von Microsoft Bestimmt die Mindestanzahl der Blattfälle, die zum Generieren einer Unterbrechung in der Entscheidungsstruktur erforderlich sind.

Der Standardwert ist 10.
MINDESTUNTERSTÜTZUNG Microsoft Sequence-Clustering-Algorithmus Gibt die Mindestanzahl der Fälle in jedem Cluster an.

Der Standardwert ist 10.
MINDESTUNTERSTÜTZUNG Microsoft-Zeitreihenalgorithmus Gibt die minimale Anzahl von Zeitsegmenten an, die zum Generieren einer Unterbrechung in jeder Zeitreihenstruktur erforderlich sind.

Der Standardwert ist 10.
FEHLENDER_WERT_ERSETZUNG Microsoft-Zeitreihenalgorithmus Gibt die Methode an, die zum Ausfüllen der Lücken in historischen Daten verwendet wird. Standardmäßig sind unregelmäßige Lücken oder gezackte Kanten in Daten nicht zulässig. Die folgenden Methoden können verwendet werden, um unregelmäßige Lücken oder Kanten auszufüllen: Verwenden Sie den vorherigen Wert, verwenden Sie den Mittelwert, oder verwenden Sie eine bestimmte numerische Konstante.
Modellierung_Kardinalität Microsoft Clustering-Algorithmus Gibt die Anzahl der Beispielmodelle an, die während des Clusteringprozesses erstellt werden.

Der Standardwert ist 10.
PERIODIZITÄTS_HINWEIS Microsoft-Zeitreihenalgorithmus Stellt einen Hinweis auf den Algorithmus zur Regelmäßigkeit der Daten bereit. Wenn z. B. der Umsatz je nach Jahr variiert und die Maßeinheit in der Datenreihe Monate ist, beträgt die Periodizität 12. Dieser Parameter verwendet das Format von {n [, n]}, wobei n eine beliebige positive Zahl ist. Der n in den Klammern [] ist optional und kann beliebig oft wiederholt werden.

Der Standardwert lautet {1}.
PREDICTION_Glättung Microsoft-Zeitreihenalgorithmus Steuert die Mischung aus ARTXP- und ARIMA-Zeitreihenalgorithmen. Der angegebene Wert ist nur gültig, wenn der parameter FORECAST_METHOD auf MIXED festgelegt ist. Die Werte müssen zwischen 0 und 1 sein. Wenn der Wert 0 ist, verwendet das Modell nur ARTXP. Wenn der Wert 1 ist, verwendet das Modell nur ARIMA. Ein Wert, der näher an 0 liegt, wird stärker auf ARTXP gewichtet. Ein Wert, der näher an 1 liegt, wird mit ARIMA stärker gewichtet.
Stichprobengröße Microsoft Clustering-Algorithmus Gibt die Anzahl der Fälle an, die der Algorithmus für jeden Durchlauf verwendet, wenn der parameter CLUSTERING_METHOD auf eine der skalierbaren Clusteringmethoden festgelegt ist. Wenn Sie den parameter SAMPLE_SIZE auf 0 festlegen, wird das gesamte Dataset in einem einzigen Durchlauf gruppiert. Dies kann zu Speicher- und Leistungsproblemen führen.

Der Standardwert ist 50000.
Stichprobengröße Microsoft Logistische Regression Algorithmus

Microsoft Neural Network Algorithm
Gibt die Anzahl der Fälle an, die zum Trainieren des Modells verwendet werden sollen. Der Algorithmusanbieter verwendet entweder diese Zahl oder den Prozentsatz der Gesamtanzahl der Fälle, die nicht im Haltewert enthalten sind, wie durch den parameter HOLDOUT_PERCENTAGE angegeben, je nachdem, welcher Wert kleiner ist.

Anders ausgedrückt: Wenn HOLDOUT_PERCENTAGE auf 30 festgelegt ist, verwendet der Algorithmus entweder den Wert dieses Parameters oder einen Wert, der gleich 70 Prozent der Gesamtanzahl der Fälle ist, je nachdem, welcher Wert kleiner ist.

Der Standardwert ist 10000.
BEWERTUNGSMETHODE Microsoft Decision Trees-Algorithmus Bestimmt die Methode, die zum Berechnen der Teilpunktzahl verwendet wird. Die folgenden Optionen sind verfügbar: (1) Entropy, (2) Bayesian mit K2 Prior oder (3) Bayesian Dirichlet Equivalent (BDE) Prior.

Der Standard ist „3“.
SPLIT_METHOD Microsoft Entscheidungsbäume-Algorithmus Bestimmt die Methode, die zum Teilen des Knotens verwendet wird. Die folgenden Optionen sind verfügbar: Binary (1), Complete (2) oder Both (3).

Der Standard ist „3“.
STOPPTOLERANZ Technische Referenz zum Microsoft Clustering-Algorithmus Gibt den Wert an, der verwendet wird, um zu bestimmen, wann die Konvergenz erreicht wird, und der Algorithmus wird mit dem Erstellen des Modells fertig gestellt. Die Konvergenz wird erreicht, wenn die Gesamtänderung der Clusterwahrscheinlichkeiten kleiner als das Verhältnis des STOPPING_TOLERANCE Parameters ist, dividiert durch die Größe des Modells.

Der Standardwert ist 10.

Kommentare

Weitere Details zu den Algorithmen finden Sie unter SQL Server Books Online.

Siehe auch

Data-Mining-Algorithmen (SQL Server Data-Mining-Add-Ins)