Microsoft Association-Algorithmus
Aktualisiert: 17. November 2008
Der Microsoft Association-Algorithmus ist ein von Microsoft SQL Server 2005 Analysis Services (SSAS) zur Verfügung gestellter Association-Algorithmus, der für Recommendation Engines von Nutzen ist. Eine Recommendation Engine empfiehlt Kunden Produkte auf der Basis von Produkten, die diese Kunden bereits gekauft oder an denen sie Interesse gezeigt haben. Der Microsoft Association-Algorithmus ist auch ein nützliches Market Basket Analysis-Instrument. Weitere Informationen zur Market Basket Analysis finden Sie unter Lektion 4: Erstellen des Market Basket-Szenarios im Data Mining-Lernprogramm.
Association-Modelle basieren auf Datasets, die Bezeichner enthalten, die sich sowohl auf einzelne Fälle als auch auf die Elemente beziehen, die in dem Fall enthalten sind. Eine Gruppe von Elementen in einem Fall wird als Itemset bezeichnet. Ein Association-Modell besteht aus einer Reihe von Itemsets und Regeln, die beschreiben, wie diese Elemente in den Fällen gruppiert sind. Mit den Regeln, die der Algorithmus identifiziert, lassen sich wahrscheinliche Kaufentscheidungen von Kunden vorhersagen. Grundlage für diese Prognose sind die Artikel, die sich bereits im Einkaufswagen des Kunden befinden. Die folgende Abbildung zeigt eine Reihe von Regeln in einem Itemset.
Wie die Abbildung verdeutlicht, kann der Microsoft Association-Algorithmus potenziell eine große Anzahl von Regeln innerhalb eines Datasets ausfindig machen. Der Algorithmus arbeitet mit zwei Parametern, Unterstützung und Wahrscheinlichkeit, um die Itemsets und Regeln zu beschreiben, die von ihm generiert werden. Beispiel: Wenn X und Y zwei Elemente darstellen, die sich in einem Einkaufswagen befinden, entspricht der Unterstützungsparameter der Anzahl von Fällen im Dataset, die die Elementkombination X und Y enthalten. Mithilfe des Unterstützungsparameters in Kombination mit dem benutzerdefinierten MINIMUM_SUPPORT-Parameter und dem MAXIMUM_SUPPORT-Parameter steuert der Algorithmus die Anzahl von generierten Itemsets. Der auch Vertrauen genannte Wahrscheinlichkeitsparameter stellt den Anteil der X enthaltenden Fälle im Dataset dar, die auch Y enthalten. Mithilfe des Wahrscheinlichkeitsparameters in Kombination mit dem MINIMUM_PROBABILITY-Parameter beeinflusst der Algorithmus, wie viele Regeln generiert werden.
Beispiel
Die Firma Adventure Works Cycles ist dabei, die Funktionalität ihrer Website neu zu entwerfen. Das Ziel dieses Neuentwurfs ist es, den Produkt-Sell-Through zu verbessern. Da die Firma jeden Verkauf in einer transaktionalen Datenbank aufzeichnet, ist sie mithilfe des Microsoft Association-Algorithmus in der Lage, Produktgruppen zu identifizieren, die von den Kunden tendenziell als Kombinationskäufe erworben werden. Auf der Basis von Artikeln, die sich bereits im Einkaufswagen der Kunden befinden, lässt sich dann vorhersagen, für welche weiteren Artikel sich die Kunden möglicherweise interessieren.
Funktionsweise des Algorithmus
Der Microsoft Association-Algorithmus durchsucht ein Dataset auf Elemente, die zusammen in einem Fall angezeigt werden. Der Algorithmus fasst dann alle verknüpften Elemente, die generiert werden, zu Itemsets zusammen, und zwar für die Mindestanzahl von Fällen, die im MINIMUM_SUPPORT-Parameter angegeben wurde. "Mountain 200=Existing, Sport 100=Existing" wäre ein Beispiel für ein Itemset, es könnte den Unterstützungswert 710 haben. Anschließend generiert der Algorithmus aus den Itemsets Regeln. Die Regeln werden verwendet, um die Präsenz eines Elements in der Datenbank, basierend auf der Präsenz anderer konkreter Elemente, die vom Algorithmus als wichtig identifiziert wurden, vorherzusagen. Eine Regel könnte z.B. "if Touring 1000=existing and Road bottle cage=existing, then Water bottle=existing" lauten, und als Wahrscheinlichkeit für diese Regel könnte 0.812 gelten. In diesem Beispiel identifiziert der Algorithmus, dass die Präsenz im Korb Touring 1000 tire und im Korb water bottle vorhersagt, dass davon ausgegangen werden kann, dass sich auch eine Wasserflasche in diesem Korb befinden würde.
Verwenden des Algorithmus
Ein Association-Modell muss eine Schlüsselspalte, Eingabespalten und eine vorhersagbare Spalte enthalten. Die Eingabespalten müssen diskret sein. Die Eingabedaten für ein Association-Modell sind häufig auf zwei Tabellen verteilt. Eine Tabelle enthält z. B. Kundendaten, während in einer anderen Tabelle die Einkäufe von Kunden registriert werden. Diese Daten können mithilfe einer geschachtelten Tabelle in das Modell eingegeben werden. Weitere Informationen zu geschachtelten Tabellen finden Sie unter Geschachtelte Tabellen.
Der Microsoft Association-Algorithmus unterstützt bestimmte Inhaltstypen für Eingabespalten und vorhersagbare Spalten sowie Modellierungsflags. Diese sind in der nachstehenden Tabelle aufgelistet.
Inhaltstypen für Eingabespalten |
Zyklisch, Diskret, Diskretisiert, Schlüssel, Tabelle und Sortiert |
Inhaltstypen für vorhersagbare Spalten |
Zyklisch, Diskret, Diskretisiert, Tabelle und Sortiert |
Modellierungsflags |
MODEL_EXISTENCE_ONLY und NOT NULL |
Alle Microsoft-Algorithmen unterstützen eine gemeinsame Reihe von Funktionen. Der Microsoft Association-Algorithmus unterstützt jedoch zusätzliche Funktionen, die in der folgenden Tabelle aufgeführt werden.
Eine Liste der allen Microsoft-Algorithmen gemeinsamen Funktionen finden Sie unter Data Mining-Algorithmen. Weitere Informationen zum Verwenden dieser Funktionen finden Sie unter Data Mining-Erweiterungen (DMX) - Funktionsreferenz.
Der Microsoft Assocation-Algorithmus unterstützt nicht die Verwendung von PMML (Predictive Model Markup Language) zum Erstellen von Miningmodellen.
Der Microsoft Association-Algorithmus unterstützt mehrere Parameter, die sich auf die Leistung und Genauigkeit des resultierenden Miningmodells auswirken. In der folgenden Tabelle wird jeder Parameter beschrieben.
Parameter
Beschreibung
MINIMUM_SUPPORT
Gibt an, in wie vielen Fällen das Itemset mindestens enthalten sein muss, damit der Algorithmus eine Regel generiert. Wenn dieser Wert auf unter 1 festgelegt wird, gibt er die Mindestanzahl von Fällen als prozentualen Anteil an der Gesamtzahl von Fällen an. Wird dieser Wert auf über 1 festgelegt, so wird die Mindestanzahl von Fällen als die absolute Anzahl von Fällen, die das Itemset enthalten müssen, festgelegt. Der Algorithmus setzt den Wert dieses Parameters möglicherweise herauf, wenn der Speicherplatz knapp ist.
Die Standardeinstellung ist 0.03.
MAXIMUM_SUPPORT
Gibt die maximale Anzahl von Fällen an, in denen ein Itemset unterstützt werden kann. Wenn dieser Wert kleiner als 1 ist, entspricht er einem prozentualen Anteil an der Gesamtzahl von Fällen. Werte, die größer als 1 sind, entsprechen der absoluten Anzahl von Fällen, die das Itemset enthalten können.
Die Standardeinstellung ist 1.
MINIMUM_ITEMSET_SIZE
Gibt die Mindestanzahl von Elementen an, die in einem Itemset zulässig sind.
Die Standardeinstellung ist 1.
MAXIMUM_ITEMSET_SIZE
Gibt die maximale Anzahl von Elementen an, die in einem Itemset zulässig sind. Wenn Sie diesen Wert auf 0 festlegen, geben Sie an, dass es für die Größe des Itemsets keine Begrenzung gibt.
Die Standardeinstellung ist 3.
MAXIMUM_ITEMSET_COUNT
Gibt die maximal zu produzierende Anzahl von Itemsets an. Wenn keine Nummer angegeben ist, wird der Standardwert verwendet. Die Standardeinstellung ist 200000.
Hinweis:
Itemsets werden nur nach Unterstützung klassifiziert. Unter Itemsets, die die gleiche Unterstützung haben, ist die Reihenfolge beliebig.
MINIMUM_PROBABILITY
Gibt die Mindestwahrscheinlichkeit an, dass eine Regel wahr ist. Wenn Sie diesen Wert auf 0.5 festlegen, wird keine Regel mit einer Wahrscheinlichkeit von weniger als 50% generiert.
Die Standardeinstellung ist 0.4.
OPTIMIZED_PREDICTION_COUNT
Definiert die Anzahl von Elementen, die zum Erstellen einer Vorhersage zwischengespeichert oder optimiert werden müssen.
Der Standardwert ist 0. Wenn der Standardwert verwendet wird, erzeugt der Algorithmus so viele Vorhersagen wie in der Abfrage angefordert.
Änderungsverlauf
Version | Verlauf |
---|---|
17. November 2008 |
|
15. September 2007 |
|
Siehe auch
Konzepte
Data Mining-Algorithmen
Data Mining-Assistent
Verwenden der Data Mining-Tools
Anzeigen eines Miningmodells mit dem Microsoft Zuordnungsregeln-Viewer