Freigeben über


Erstellen einer neuralen Netzwerkstruktur und eines Neuralen Modells (Lernprogramm für Zwischendatenbergbau)

Zum Erstellen eines Data Mining-Modells müssen Sie zunächst den Data Mining-Assistenten verwenden, um eine neue Miningstruktur basierend auf der neuen Datenquellenansicht zu erstellen. In dieser Aufgabe verwenden Sie den Assistenten, um eine Miningstruktur zu erstellen und gleichzeitig ein zugeordnetes Miningmodell zu erstellen, das auf dem Microsoft Neural Network-Algorithmus basiert.

Da neurale Netzwerke extrem flexibel sind und viele Kombinationen von Eingaben und Ausgaben analysieren können, sollten Sie mit mehreren Möglichkeiten der Verarbeitung der Daten experimentieren, um die besten Ergebnisse zu erzielen. Sie können z. B. die Art und Weise anpassen, wie das numerische Ziel für die Dienstqualität binniert oder gruppiert ist, um bestimmte Geschäftsanforderungen zu erfüllen. Dazu fügen Sie der Miningstruktur eine neue Spalte hinzu, die numerische Daten auf eine andere Weise gruppiert, und dann ein Modell erstellen, das die neue Spalte verwendet. Sie werden diese Miningmodelle verwenden, um einige Erkundungen durchzuführen.

Wenn Sie schließlich aus dem neuralen Netzwerkmodell gelernt haben, welche Faktoren die größten Auswirkungen auf Ihre Geschäftsfrage haben, erstellen Sie ein separates Modell für Vorhersage und Bewertung. Sie verwenden den Microsoft Logistic Regression-Algorithmus, der auf dem Neuralnetzwerkmodell basiert, aber für die Suche nach einer Lösung basierend auf bestimmten Eingaben optimiert ist.

Schritte

Erstellen der Standardmäßigen Miningstruktur und des Standardmodells

Verwenden der Discretisierung zum Abbindieren der vorhersagbaren Spalte

Kopieren Sie die Spalte, und ändern Sie die Diskretisierungsmethode für ein anderes Modell.

Erstellen Sie einen Alias für die vorhersagbare Spalte, damit Sie Modelle vergleichen können.

Verarbeiten aller Modelle

Erstellen der Standardmäßigen Anrufcenterstruktur

  1. Klicken Sie im Projektmappen-Explorer in SQL Server Data Tools (SSDT) mit der rechten Maustaste auf Miningstrukturen , und wählen Sie "Neue Miningstruktur" aus.

  2. Klicken Sie auf der Seite "Willkommen beim Data Mining-Assistenten " auf "Weiter".

  3. Überprüfen Sie auf der Seite "Definitionsmethode auswählen", ob aus einer vorhandenen relationalen Datenbank oder einem vorhandenen Data Warehouse ausgewählt ist, und klicken Sie dann auf "Weiter".

  4. Überprüfen Sie auf der Seite " Data Mining-Struktur erstellen ", ob die Option "Miningstruktur mit einem Miningmodell erstellen " ausgewählt ist.

  5. Klicken Sie auf die Dropdownliste für die Option Welche Data Mining-Technik möchten Sie verwenden?, und wählen Sie dann Microsoft Neural Networks aus.

    Da die logistischen Regressionsmodelle auf den neuralen Netzwerken basieren, können Sie dieselbe Struktur wiederverwenden und ein neues Miningmodell hinzufügen.

  6. Klicke auf Weiter.

    Die Seite " Datenquellenansicht auswählen " wird angezeigt.

  7. Wählen Sie unter "Verfügbare Datenquellenansichten" die Option Call Center"Weiter" aus, und klicken Sie auf "Weiter".

  8. Aktivieren Sie auf der Seite " Tabellentypen angeben " das Kontrollkästchen " Groß-/Kleinschreibung " neben der Tabelle "FactCallCenter ". Wählen Sie nichts für DimDate aus. Klicke auf Weiter.

  9. Wählen Sie auf der Seite "Schulungsdaten angeben" die Option "Schlüssel" neben der Spalte "FactCallCenterID" aus.

  10. Aktivieren Sie die Predict Kontrollkästchen "Eingabe" und " Eingabe ".

  11. Aktivieren Sie die Kontrollkästchen "Taste", " Eingabe" und Predict "Kontrollkästchen", wie in der folgenden Tabelle gezeigt:

    Tabellen/Spalten Schlüssel/Eingabe/Vorhersagbar
    AutomaticResponses Eingabe
    AverageTimePerIssue Eingabe/Vorhersage
    Anrufe Eingabe
    Datumsschlüssel Nicht verwenden
    DayOfWeek Eingabe
    FactCallCenterID Schlüssel
    Aufgeworfene Probleme Eingabe
    LevelOneOperators Eingabe/Vorhersage
    LevelTwoOperators Eingabe
    Aufträge Eingabe/Vorhersage
    ServiceGrade Eingabe/Vorhersage
    Schicht Eingabe
    TotalOperators Nicht verwenden
    Lohnart Eingabe

    Beachten Sie, dass mehrere vorhersagbare Spalten ausgewählt wurden. Einer der Stärken des neuralen Netzwerkalgorithmus besteht darin, dass sie alle möglichen Kombinationen von Eingabe- und Ausgabeattributen analysieren kann. Sie möchten dies für einen großen Datensatz nicht tun, da die Verarbeitungszeit exponentiell erhöht werden könnte.

  12. Überprüfen Sie auf der Seite " Spalteninhalt und Datentyp angeben ", ob das Raster die Spalten, Inhaltstypen und Datentypen enthält, wie in der folgenden Tabelle dargestellt, und klicken Sie dann auf "Weiter".

    Spalten Inhaltstyp Datentypen
    AutomaticResponses Stetig Lang
    Durchschnittliche Zeit pro Problem Stetig Lang
    Anrufe Stetig Lang
    DayOfWeek Eigenständig Text
    FactCallCenterID Schlüssel Lang
    Aufgeworfene Fragen Stetig Lang
    LevelOneOperators Stetig Lang
    LevelTwoOperators Stetig Lang
    Aufträge Stetig Lang
    ServiceGrade Stetig Doppelt
    Schicht Eigenständig Text
    Lohnart Eigenständig Text
  13. Leeren Sie auf der Seite Testsatz erstellen das Textfeld für die Option Prozentsatz der Daten für Tests. Klicke auf Weiter.

  14. Geben Sie auf der Seite "Assistent abschließen" für den Namen der MiningstrukturCall Center ein.

  15. Geben Sie für den Namen des MiningmodellsCall Center Default NN ein und klicken Sie auf Fertigstellen.

    Das Feld "Drillthrough zulassen " ist deaktiviert, da Sie keinen Drilldown zu Daten mit neuralen Netzwerkmodellen ausführen können.

  16. Klicken Sie im Projektmappen-Explorer mit der rechten Maustaste auf den Namen der soeben erstellten Data Mining-Struktur, und wählen Sie "Prozess" aus.

Verwenden Sie die Diskretisierung zum Gruppieren der Zielspalte

Wenn Sie ein neurales Netzwerkmodell mit einem numerischen vorhersagbaren Attribut erstellen, behandelt der Microsoft Neural Network-Algorithmus das Attribut standardmäßig als fortlaufende Zahl. Das ServiceGrade-Attribut ist beispielsweise eine Zahl, die theoretisch zwischen 0,00 (alle Anrufe werden beantwortet) bis 1,00 liegt (alle Anrufer hängen auf). In diesem Dataset weisen die Werte die folgende Verteilung auf:

Verteilung der Dienstleistungsbewertungswerte

Wenn Sie das Modell verarbeiten, werden die Ausgaben möglicherweise anders gruppiert als erwartet. Wenn Sie beispielsweise clustering verwenden, um die besten Wertegruppen zu identifizieren, teilt der Algorithmus die Werte in ServiceGrade in Bereiche wie z. B. 0,0748051948 - 0,09716216215 auf. Obwohl diese Gruppierung mathematisch genau ist, sind solche Bereiche für Geschäftsbenutzer möglicherweise nicht so aussagekräftig.

In diesem Schritt können Sie die numerischen Werte anders gruppieren und Kopien der numerischen Datenspalte erstellen, um das Ergebnis intuitiver zu gestalten.

Funktionsweise der Discretisierung

Analysis Services bietet eine Vielzahl von Methoden zum Binning oder Verarbeiten numerischer Daten. In der folgenden Tabelle sind die Unterschiede zwischen den Ergebnissen dargestellt, wenn das Ausgabeattribute ServiceGrade auf drei verschiedene Arten verarbeitet wurde:

  • Behandeln sie als fortlaufende Zahl.

  • Wenn der Algorithmus Clustering verwendet, um die beste Anordnung von Werten zu identifizieren.

  • Gibt an, dass die Zahlen durch die Equal Areas-Methode binniert werden.

Standardmodell (fortlaufend)

WERT Alias
Fehlend 0
0.09875 120

Sortiert durch Clusterbildung

WERT Alias
< 0.0748051948 34
0.0748051948 - 0.09716216215 27
0.09716216215 - 0.13297297295 39
0.13297297295 - 0.167499999975 10
>= 0.167499999975 10

Binned by equal areas

WERT Alias
< 0.07 26
0.07 - 0.00 22
0.09 - 0.11 36
>= 0,12 36

Hinweis

Sie können diese Statistiken aus dem Randstatistikknoten des Modells abrufen, nachdem alle Daten verarbeitet wurden. Weitere Informationen zum Knoten „Randstatistiken“ finden Sie unter Mining Model Content for Neural Network Models (Analysis Services - Data Mining).

In dieser Tabelle zeigt die Spalte WERT, wie die Nummer für ServiceGrade behandelt wurde. In der Spalte "SUPPORT" wird gezeigt, wie viele Fälle diesen Wert hatten oder in diesen Bereich gefallen sind.

  • Verwenden von fortlaufenden Zahlen (Standard)

    Wenn Sie die Standardmethode verwendet haben, berechnet der Algorithmus Ergebnisse für 120 unterschiedliche Werte, deren Mittelwert 0,09875 ist. Sie können auch die Anzahl fehlender Werte sehen.

  • Gruppierung durch Clustering

    Wenn Sie zulassen, dass der Microsoft Clustering-Algorithmus die optionale Gruppierung von Werten bestimmt, würde der Algorithmus die Werte für ServiceGrade in fünf (5) Bereiche gruppieren. Die Anzahl der Fälle in jedem Bereich ist nicht gleichmäßig verteilt, wie Sie aus der Unterstützungsspalte sehen können.

  • Bin nach gleichen Bereichen

    Wenn Sie diese Methode auswählen, erzwingt der Algorithmus die Werte in Buckets gleicher Größe, wodurch wiederum die oberen und unteren Grenzen der einzelnen Bereiche geändert werden. Sie können die Anzahl der Buckets angeben, aber Sie möchten vermeiden, dass zwei Werte in jedem Bucket vorhanden sind.

Weitere Informationen zu Binningoptionen finden Sie unter Discretization Methods (Data Mining).For more information about binning options, see Discretization Methods (Data Mining)

Alternativ können Sie anstelle der numerischen Werte eine separate abgeleitete Spalte hinzufügen, die die Dienstnoten in vordefinierte Zielbereiche klassifiziert, z. B. Best (ServiceGrade <= 0,05), Acceptable (0.10 > ServiceGrade > 0.05) und Poor (ServiceGrade >= 0.10).

Erstellen einer Kopie einer Spalte und Ändern der Discretization-Methode

Sie erstellen eine Kopie der Miningspalte, die das Zielattribute, ServiceGrade enthält, und ändern die Art und Weise, wie die Zahlen gruppiert werden. Sie können mehrere Kopien einer beliebigen Spalte in einer Miningstruktur erstellen, einschließlich des vorhersagbaren Attributs.

In diesem Lernprogramm verwenden Sie die Equal Areas-Methode der Discretisierung und geben vier Buckets an. Die Gruppierungen, die aus dieser Methode resultieren, sind relativ nahe an den Zielwerten, die für Ihre Geschäftsbenutzer von Interesse sind.

So erstellen Sie eine benutzerdefinierte Kopie einer Spalte in der Miningstruktur

  1. Doppelklicken Sie im Projektmappen-Explorer auf die soeben erstellte Miningstruktur.

  2. Klicken Sie auf der Registerkarte "Miningstruktur" auf "Miningstruktur hinzufügen".

  3. Wählen Sie im Dialogfeld "Spalte auswählen " "ServiceGrade" aus der Liste in der Spalte "Quelle" aus, und klicken Sie dann auf "OK".

    Eine neue Spalte wird zur Liste der Miningstrukturspalten hinzugefügt. Standardmäßig weist die neue Miningspalte denselben Namen wie die vorhandene Spalte mit einem numerischen Postfix auf: z. B. ServiceGrade 1. Sie können den Namen dieser Spalte so ändern, dass sie aussagekräftiger ist.

    Sie geben auch die Diskretisierungsmethode an.

  4. Klicken Sie mit der rechten Maustaste auf ServiceGrade 1, und wählen Sie "Eigenschaften" aus.

  5. Suchen Sie im Eigenschaftenfenster die Name-Eigenschaft , und ändern Sie den Namen in "Service Grade Binned" .

  6. Es wird ein Dialogfeld angezeigt, in dem Sie gefragt werden, ob Sie dieselbe Änderung an dem Namen aller zugehörigen Miningmodellspalten vornehmen möchten. Klicken Sie auf "Nein".

  7. Suchen Sie im Eigenschaftenfenster den Abschnitt "Datentyp ", und erweitern Sie ihn bei Bedarf.

  8. Ändern Sie den Wert der Eigenschaft Content von Continuous zu Discretized.

    Die folgenden Eigenschaften sind jetzt verfügbar. Ändern Sie die Werte der Eigenschaften, wie in der folgenden Tabelle dargestellt:

    Eigentum Standardwert Neuer Wert
    DiscretizationMethod Continuous EqualAreas
    DiscretizationBucketCount Kein Wert 4

    Hinweis

    Der Standardwert von DiscretizationBucketCount ist eigentlich 0, was bedeutet, dass der Algorithmus automatisch die optimale Anzahl von Containern bestimmt. Wenn Sie daher den Wert dieser Eigenschaft auf den Standardwert zurücksetzen möchten, geben Sie "0" ein.

  9. Klicken Sie im Data Mining-Designer auf die Registerkarte "Miningmodelle ".

    Beachten Sie, dass beim Hinzufügen einer Kopie einer Miningstrukturspalte die Verwendungskennzeichnung für die Kopie automatisch auf Ignore gesetzt wird. Normalerweise, wenn Sie einer Miningstruktur eine Kopie einer Spalte hinzufügen, sollten Sie die Kopie nicht zusammen mit der ursprünglichen Spalte verwenden, da der Algorithmus eine starke Korrelation zwischen den beiden Spalten findet, die andere Beziehungen verdecken könnte.

Hinzufügen eines neuen Miningmodells zur Miningstruktur

Nachdem Sie nun eine neue Gruppierung für das Zielattribute erstellt haben, müssen Sie ein neues Miningmodell hinzufügen, das die diskretisierte Spalte verwendet. Wenn Sie fertig sind, verfügt die CallCenter-Miningstruktur über zwei Miningmodelle:

  • Das Miningmodell, Call Center Default NN, verarbeitet die ServiceGrade-Werte als fortlaufenden Bereich.

  • Sie erstellen ein neues Miningmodell, Call Center Binned NN, das als Zielergebnisse die Werte der ServiceGrade-Spalte verwendet, verteilt in vier Buckets gleicher Größe.

So fügen Sie ein Miningmodell basierend auf der neuen diskretisierten Spalte hinzu

  1. Klicken Sie im Projektmappen-Explorer mit der rechten Maustaste auf die soeben erstellte Miningstruktur, und wählen Sie "Öffnen" aus.

  2. Klicken Sie auf die Registerkarte "Miningmodelle ".

  3. Klicken Sie auf "Erstellen eines verwandten Miningmodells".

  4. Geben Sie im Dialogfeld "Neues Miningmodell" für ModellnameCall Center Binned NN ein. Wählen Sie in der Dropdownliste "Algorithmusname " die Option "Microsoft Neural Network" aus.

  5. Suchen Sie in der Liste der Spalten, die im neuen Miningmodell enthalten sind, nach ServiceGrade und ändern Sie die Verwendung von Predict zu Ignore.

  6. Suchen Sie ServiceGrade Binned ebenfalls und ändern Sie die Nutzung von Ignore zu Predict.

Erstellen Sie einen Alias für die Zielspalte

Normalerweise kannst du keine Mining-Modelle vergleichen, die unterschiedliche vorhersehbare Attribute verwenden. Sie können jedoch einen Alias für eine Spalte eines Miningmodells erstellen. Das heißt, Sie können die Spalte "ServiceGrade Binned" innerhalb des Miningmodells umbenennen, sodass sie denselben Namen wie die ursprüngliche Spalte hat. Sie können diese beiden Modelle dann direkt in einem Genauigkeitsdiagramm vergleichen, auch wenn die Daten unterschiedlich diskretisiert werden.

So fügen Sie einen Alias für eine Miningstrukturspalte in einem Miningmodell hinzu

  1. Wählen Sie auf der Registerkarte "Miningmodelle " unter "Struktur" "ServiceGrade Binned" aus.

    Beachten Sie, dass im Eigenschaftenfenster die Eigenschaften des Objekts angezeigt werden, spalte "ScalarMiningStructure".

  2. Klicken Sie unter der Spalte für das Miningmodell "ServiceGrade Binned NN" auf die Zelle, die der Spalte "ServiceGrade Binned" entspricht.

    Beachten Sie, dass nun im Eigenschaftenfenster die Eigenschaften für das Objekt "MiningModelColumn" angezeigt werden.

  3. Suchen Sie die Name-Eigenschaft , und ändern Sie den Wert in ServiceGrade.

  4. Suchen Sie die Description-Eigenschaft und geben Sie temporärer Spaltenalias ein.

    Das Eigenschaftenfenster sollte die folgenden Informationen enthalten:

    Eigentum Wert
    Beschreibung Temporärer Spaltenalias
    ID ServiceGrade Binned
    Modellieren von Flags
    Name Servicequalität
    SourceColumn-ID Dienstklasse 1
    Verwendung Voraussagen
  5. Klicken Sie auf eine beliebige Stelle auf der Registerkarte "Miningmodell ".

    Das Raster wird aktualisiert, um den neuen temporären Spalten-Alias ServiceGrade neben der Spaltenverwendung anzuzeigen. Das Raster, das die Bergbaustruktur und zwei Miningmodelle enthält, sollte wie folgt aussehen:

    Struktur Callcenter-Default NN Kundendienstzentrum Binned NN
    Microsoft Neurales Netzwerk Microsoft Neurales Netzwerk
    AutomaticResponses Eingabe Eingabe
    Durchschnittszeit pro Anfrage Voraussagen Voraussagen
    Anrufe Eingabe Eingabe
    DayOfWeek Eingabe Eingabe
    FactCallCenterID Schlüssel Schlüssel
    Aufgeworfene Probleme Eingabe Eingabe
    LevelOneOperators Eingabe Eingabe
    LevelTwoOperators Eingabe Eingabe
    Aufträge Eingabe Eingabe
    ServceGrade Binned Ignorieren Vorhersage (ServiceGrade)
    ServiceGrade Voraussagen Ignorieren
    Umschalten Eingabe Eingabe
    Gesamtoperatoren Eingabe Eingabe
    Entgeltart Eingabe Eingabe

Alle Modelle verarbeiten

Um sicherzustellen, dass die erstellten Modelle einfach verglichen werden können, legen Sie den Seed-Parameter sowohl für die Standard- als auch für die binnierten Modelle fest. Durch festlegen eines Ausgangswerts wird sichergestellt, dass jedes Modell die Verarbeitung der Daten von demselben Punkt aus beginnt.

Hinweis

Wenn Sie keinen numerischen Wert für den Seed-Parameter angeben, generiert SQL Server Analysis Services einen Seed basierend auf dem Namen des Modells. Da die Modelle immer unterschiedliche Namen haben, müssen Sie einen Seedwert festlegen, um sicherzustellen, dass sie Daten in derselben Reihenfolge verarbeiten.

Um den Seed festzulegen und die Modelle zu verarbeiten

  1. Klicken Sie auf der Registerkarte "Miningmodell " mit der rechten Maustaste auf die Spalte für das Modell namens Call Center - LR, und wählen Sie " Algorithmusparameter festlegen" aus.

  2. Klicken Sie in der Zeile für den parameter HOLDOUT_SEED auf die leere Zelle unter "Wert", und geben Sie den Wert ein 1. Klicke auf OK. Wiederholen Sie diesen Schritt für jedes Modell, das der Struktur zugeordnet ist.

    Hinweis

    Der Wert, den Sie als Ausgangswert auswählen, spielt keine Rolle, solange Sie für alle verwandten Modelle denselben Samen verwenden.

  3. Wählen Sie im Menü "Miningmodelle " die Option "Process Mining Structure" und "All Models" aus. Klicken Sie auf "Ja ", um das aktualisierte Data Mining-Projekt auf dem Server bereitzustellen.

  4. Klicken Sie im Dialogfeld "Process Mining Model " auf "Ausführen".

  5. Klicken Sie auf "Schließen", um das Dialogfeld "Prozessfortschritt" zu schließen, und klicken Sie dann im Dialogfeld "Process Mining Model" erneut auf "Schließen".

Nachdem Sie nun die beiden zugehörigen Miningmodelle erstellt haben, untersuchen Sie die Daten, um Beziehungen in den Daten zu ermitteln.

Nächste Aufgabe in der Lektion

Erkunden des Call Center-Modells (Lernprogramm für Zwischendatenmining)

Siehe auch

Miningstrukturen (Analysis Services - Data Mining)