Verwenden des Ausbildungsmodus zum Trainieren der Personalisierung, ohne Ihre bestehende Anwendung zu beeinträchtigen

Wichtig

Ab dem 20. September 2023 können Sie keine neuen Personalisierungsressourcen mehr erstellen. Der Personalisierungsdienst wird am 1. Oktober 2026 eingestellt.

Bei der Bereitstellung einer neuen Personalisierungsressource erfolgt die Initialisierung mit einem untrainierten oder leeren Modell. Das heißt, sie hat noch aus keinerlei Daten gelernt und wird daher in der Praxis nicht gut funktionieren. Dies wird als „Kaltstart“-Problem bezeichnet und im Laufe der Zeit behoben, indem das Modell mit realen Daten aus Ihrer Produktionsumgebung trainiert wird. Der Ausbildungsmodus ist ein Lernverhalten, das dazu beiträgt, das Problem „Kaltstart“ zu mindern, und ermöglicht es Ihnen, Vertrauen in das Modell zu gewinnen, bevor sie Entscheidungen in der Produktion trifft, ohne dass Codeänderungen erforderlich sind.

Was ist der Ausbildungsmodus?

Ähnlich wie ein Lehrling ein Handwerk erlernt, indem er einen Experten beobachtet, ermöglicht der Ausbildungsmodus der Personalisierung, die Entscheidungen zu beobachten, die von der aktuellen Logik Ihrer Anwendung getroffen werden. Das Personalisierungsmodell trainiert, indem es dieselbe Ausgabe wie die Anwendung nachahmt. Mit jedem Rang-API-Aufruf kann die Personalisierung lernen, ohne die vorhandene Logik und Ergebnisse zu beeinträchtigen. Metriken, die über das Azure-Portal und die API verfügbar sind, helfen Ihnen die Leistung zu verstehen, während das Modell lernt. Insbesondere, wie gut die Personalisierung auf ihre vorhandene Logik (auch als Baselinerichtlinie bezeichnet) abgestimmt ist.

Sobald die Personalisierung in der Lage ist, Ihrer vorhandenen Logik 60–80 % der Zeit angemessen zu entsprechen, können Sie das Verhalten vom Ausbildungsmodus in den Onlinemodus ändern. Zu diesem Zeitpunkt gibt die Personalisierung die besten Aktionen, die vom zugrunde liegenden Modell bestimmt werden, in der Rangfolge-API zurück und kann lernen, wie sie bessere Entscheidungen als Ihre Baselinerichtlinie treffen kann.

Warum soll der Ausbildungsmodus verwendet werden?

Der Ausbildungsmodus stellt für Ihr Modell eine Möglichkeit dar, Ihre vorhandene Entscheidungslogik nachzuahmen, bevor es Onlineentscheidungen trifft, die von Ihrer Anwendung verwendet werden. Dies hilft, das oben erwähnte Kaltstartproblem zu entschärfen, Ihnen mehr Vertrauen in den Personalisierungsdienst und die Zusicherung zu geben, dass die an die Personalisierung gesendeten Daten für das Trainieren des Modells nützlich sind. Dies geschieht, ohne Ihren Online-Datenverkehr und Ihre Kundenerfahrung zu gefährden oder zu beeinträchtigen.

Die zwei Hauptgründe für die Verwendung des Ausbildungsmodus sind:

  • Entschärfung der Kaltstarts: Der Ausbildungsmodus hilft dabei, die Kosten eines „neuen“ Modells in der Produktion zu verringern, indem es lernt, ohne uninformierte Entscheidungen treffen zu müssen. Das Modell lernt, Ihre vorhandene Anwendungslogik nachzuahmen.
  • Überprüfen von Aktions- und Kontextfeatures: Kontext- und Aktionsfeatures können unzureichend, ungenau oder suboptimal entwickelt sein. Wenn zu wenige, zu viele, falsche, laute oder falsch formatierte Features vorhanden sind, hat die Personalisierung Schwierigkeiten beim Trainieren eines gut funktionierenden Modells. Das Ausführen einer Featurebewertung im Ausbildungsmodus gibt Ihnen die Möglichkeit, zu ermitteln, wie effektiv die Features beim Trainieren der Personalisierung sind, und kann Bereiche zur Verbesserung der Featurequalität identifizieren.

Wann sollten Sie den Ausbildungsmodus verwenden?

Verwenden Sie den Ausbildungsmodus, um die Personalisierung zu trainieren, um die Effektivität der Personalisierung durch die folgenden Szenarien zu verbessern, ohne die Erfahrung Ihrer Benutzer durch die Personalisierung zu beeinträchtigen:

  • Sie implementieren die Personalisierung in einem neuen Szenario.
  • Sie haben größere Änderungen an den Kontext- oder Aktionsfeatures vorgenommen.

Der Ausbildungsmodus stellt jedoch keine effektive Methode zur Messung der Auswirkungen dar, die die Personalisierung auf die Verbesserung der Relevanzbewertungen oder Ihre Unternehmens-KPIs hat. Er kann nur auswerten, wie gut der Dienst Ihre vorhandene Logik auf der Grundlage der von Ihnen bereitgestellten aktuellen Daten lernt. Für die Messung, wie effektiv die Personalisierung bei der Auswahl der bestmöglichen Aktion für jeden Rangaufruf ist, muss sich die Personalisierung im Onlinemodus befinden. Alternativ können Sie Offlineauswertungen über einen Zeitraum verwenden, in dem sich die Personalisierung im Onlinemodus befand.

Wer sollte den Ausbildungsmodus verwenden?

Der Ausbildungsmodus ist für Entwickler, Datenwissenschaftler und geschäftlichen Entscheidungsträger nützlich:

  • Entwickler können den Ausbildungsmodus verwenden, um sicherzustellen, dass die Rang- und Relevanz-APIs ordnungsgemäß in der Anwendung implementiert werden und Features, die an die Personalisierung gesendet werden, frei von Irrtümern und gängigen Fehlern sind. Erfahren Sie mehr über das Erstellen guter Kontext- und Aktionsfeatures.

  • Datenwissenschaftler können den Ausbildungsmodus verwenden, um zu überprüfen, ob die Features effektiv sind, um die Personalisierungsmodelle zu trainieren. Das heißt, die Features enthalten nützliche Informationen, mit denen die Personalisierung die vorhandene Entscheidungslogik erlernen kann.

  • Geschäftsentscheidungsträger können den Ausbildungsmodus verwenden, um das Potenzial der Personalisierung zur Verbesserung der Ergebnisse (d. h. der Relevanzen) im Vergleich zur bestehenden Geschäftslogik zu bewerten. Insbesondere, ob die Personalisierung aus den bereitgestellten Daten lernen kann, bevor es in den Onlinemodus wechselt. Dadurch kann eine fundierte Entscheidung getroffen werden, die sich auf die Benutzerfreundlichkeit auswirkt, wo tatsächliche Umsätze und Benutzerzufriedenheit auf dem Spiel stehen.

Vergleichen von Verhaltensweisen – Ausbildungsmodus und Onlinemodus

Das Lernen im Ausbildungsmodus unterscheidet sich in den folgenden Punkten vom Onlinemodus.

Bereich Ausbildungsmodus Onlinemodus
Auswirkungen auf die Benutzerfreundlichkeit Die Benutzerfreundlichkeit und Geschäftsmetriken ändern sich nicht. Das Training der Personalisierung erfolgt durch Beobachten der Baselineaktionen Ihrer aktuellen Anwendungslogik, ohne sie zu beeinträchtigen. Die Benutzerfreundlichkeit kann sich ändern, da die Entscheidung von der Personalisierung und nicht von Ihrer Baselineaktion getroffen wird.
Lerngeschwindigkeit Die Personalisierung lernt im Ausbildungsmodus langsamer als im Onlinemodus. Der Ausbildungsmodus kann nur lernen, indem die Belohnungen beobachtet werden, die von Ihrer Standardaktion verdient werden, ohne Erkundung, was begrenzt, wie viel die Personalisierung lernen kann. Das Lernen ist schneller, da sie sowohl die beste Aktion aus dem aktuellen Modell ausnutzen kann als auch andere Aktionen für potenziell bessere Ergebnisse untersuchen kann.
Lerneffektivität: Obergrenze Die Personalisierung kann sich nur an die Leistung Ihrer aktuellen Anwendungslogik annähern, sie aber nie übertreffen (die Summe der durchschnittlichen Relevanz, die durch die Baselineaktion erreicht wird). Es ist unwahrscheinlich, dass die Personalisierung eine Übereinstimmung von 100 % mit der Logik Ihrer aktuellen Anwendung erreicht, und es wird empfohlen, mit der Personalisierung in den Onlinemodus zu wechseln, sobald eine Übereinstimmung von 60–80 % erreicht wird. Die Personalisierung sollte die Leistung Ihrer aktuellen Anwendungslogik übertreffen. Wenn die Leistung der Personalisierung mit der Zeit stagnieren sollte, können Sie eine Offlineauswertung und eine Featureauswertung durchführen, um weitere Verbesserungen zu verfolgen.
Rangfolge-API-Wert für „rewardActionId“ Die rewardsActionId ist immer die ID der Standardaktion. Das heißt, die Aktion, die Sie als erste Aktion in der JSON-Anforderung der Rang-API senden. Mit anderen Worten, die Rangfolge-API führt im Ausbildungsmodus keine sichtbaren Aktionen für Ihre Anwendung durch. Die rewardsActionId ist eine der IDs, die im Rang-API-Aufruf bereitgestellt werden, wie vom Personalisierungsmodell bestimmt.
Auswertungen Die Personalisierung führt einen Vergleich der Relevanzsummen, die Ihre Standardgeschäftslogik erhält, mit den Relevanzsummen, die die Personalisierung erhalten würde, wenn sie sich zu diesem Zeitpunkt im Onlinemodus befände. Dieser Vergleich kann auf dem Blatt Monitor Ihrer Personalisierungsressource im Azure-Portal angezeigt werden. Werten Sie die Effektivität der Personalisierung aus, indem Sie Offlineauswertungen durchführen, die es Ihnen ermöglichen, die von der Personalisierung insgesamt erzielten Relevanzen mit den potenziellen Relevanzen der Baseline der Anwendung zu vergleichen.

Beachten Sie, dass die Personalisierung wahrscheinlich keine 100 %ige Übereinstimmung mit der Leistung der Basislogik Ihrer Anwendung erreicht und sie nie übertreffen wird. Ein Erreichen von 60–80 % der Leistung sollte ausreichen, um die Personalisierung auf den Onlinemodus umzustellen, in dem die Personalisierung bessere Entscheidungen erlernen und die Leistung der Basislogik Ihrer Anwendung schließlich übertreffen kann.

Einschränkungen des Ausbildungsmodus

Im Ausbildungsmodus wird das Personalisierungsmodell trainiert, indem versucht wird, die Basislogik Ihrer vorhandenen Anwendung mithilfe der Kontext- und Aktionsfeatures in den Rangaufrufen zu imitieren. Die folgenden Faktoren wirken sich auf die Lernfähigkeit des Ausbildungsmodus aus.

Szenarien, in denen der Ausbildungsmodus möglicherweise nicht geeignet ist:

Redaktionell gewählter Inhalt:

In einigen Szenarien wie Nachrichten oder Unterhaltung könnte das Baselineelement manuell von einem Redaktionsteam zugewiesen werden. Dies bedeutet, dass Menschen ihr breitgefächertes Wissen und ihr Verständnis dafür, was ansprechende Inhalte sein könnten, verwenden, um bestimmte Artikel oder Medien aus einem Pool auszuwählen und diese als „bevorzugte“ oder „Helden“-Artikel zu kennzeichnen. Diese Editoren sind jedoch keine Algorithmen, und die von den Editoren berücksichtigten Faktoren können subjektiv und möglicherweise ohne Zusammenhang mit den Kontext- oder Aktionsfeatures sein. In diesem Fall kann der Ausbildungsmodus Schwierigkeiten beim Vorhersagen der Baselineaktion haben. In diesen Situationen haben Sie folgende Möglichkeiten:

  • Testen der Personalisierung im Onlinemodus: Erwägen Sie, die Personalisierung für einen bestimmten Zeitraum in den Onlinemodus oder in einen A/B-Test zu versetzen, wenn Sie über die entsprechende Infrastruktur verfügen, und dann eine Offlineauswertung auszuführen, um den Unterschied zwischen der Basislogik Ihrer Anwendung und der Personalisierung zu bewerten.
  • Fügen Sie redaktionelle Überlegungen und Empfehlungen als Features hinzu: Fragen Sie Ihre Redakteure, welche Faktoren ihre Entscheidungen beeinflussen, und schauen Sie, ob Sie diese als Features in Ihren Kontext und Ihre Aktion aufnehmen können. Beispielsweise heben Redakteure in einem Medienunternehmen möglicherweise Inhalte hervor, wenn eine bestimmte prominente Persönlichkeit häufig in den Nachrichten vorkommt: Dieses Wissen könnte als Kontextfeature hinzugefügt werden.

Faktoren, die den Ausbildungsmodus verbessern und beschleunigen werden

Wenn der Ausbildungsmodus lernt und eine Anpassungsleistung über Null erreicht, sich die Leistung jedoch nur langsam verbessert (sie erreicht innerhalb von zwei Wochen nicht 60 bis 80 % Abgleichrelevanz), ist es möglich, dass zu wenig Daten an die Personalisierung gesendet werden. Die folgenden Schritte können dazu beitragen, schnelleres Lernen zu erleichtern:

  1. Hinzufügen von differenzierenden Features: Sie können eine visuelle Überprüfung der Aktionen in einem Rangaufruf und in ihren Features durchführen. Verfügt die Baselineaktion über Features, die sich von anderen Aktionen unterscheiden? Wenn sie größtenteils gleich aussehen, fügen Sie weitere Features hinzu, die die Vielfalt der Featurewerte erhöhen.
  2. Reduzieren von Aktionen pro Ereignis: Die Personalisierung verwendet die Einstellung „% von Rangfolgeaufrufen für Erkundung verwenden“, um Vorlieben und Trends zu erkennen. Wenn ein Rangfolgeaufruf über mehr Aktionen verfügt, ist die Wahrscheinlichkeit geringer, dass eine Aktion für die Untersuchung gewählt wird. Die Anzahl der Aktionen, die in jedem Rangaufruf an eine kleinere Zahl (unter 10) gesendet werden, kann eine temporäre Anpassung sein, die angibt, ob der Ausbildungsmodus über ausreichende Daten verfügt, um zu lernen.

Verwenden des Ausbildungsmodus zum Trainieren mit Verlaufsdaten

Wenn Sie über eine beträchtliche Menge an Verlaufsdaten verfügen, mit denen Sie die Personalisierung trainieren möchten, können Sie den Ausbildungsmodus verwenden, um die Daten über die Personalisierung wiederzugeben.

Richten Sie die Personalisierung im Ausbildungsmodus ein, und erstellen Sie ein Skript, das die Rangfolge mit den Aktionen und Kontextfeatures aus den Verlaufsdaten aufruft. Rufen Sie die Relevanz-API auf der Grundlage Ihrer Berechnungen der Datensätze in diesen Daten auf. Sie benötigen annähernd 50.000 Verlaufsereignisse, um eine Übereinstimmung der Personalisierung von 60 bis 80 % mit der Basislogik Ihrer Anwendung zu erreichen. Möglicherweise können Sie zufriedenstellende Ergebnisse mit weniger oder mehr Ereignissen erzielen.

Beim Training anhand von Verlaufsdaten wird empfohlen, dass die gesendeten Daten [Features für Kontext und Aktionen, ihr Layout im JSON-Code, das für Rangfolgeanforderungen verwendet wird, und die Berechnung der Relevanz in diesem Trainingsdataset] mit den Daten [Features und Berechnung der Relevanz] aus der vorhandenen Anwendung übereinstimmen.

Offline- und Verlaufsdaten sind in der Regel weniger vollständig und stärker „verrauscht“ und können sich im Format von Ihrem Produktionsszenario (oder Onlineszenario) unterscheiden. Ein Training anhand von Verlaufsdaten ist zwar möglich, die Ergebnisse daraus sind jedoch möglicherweise nicht schlüssig und stellen nicht zwangsläufig einen guten Indikator dafür dar, wie gut die Personalisierung im Onlinemodus lernt, insbesondere wenn sich die Features zwischen den Verlaufsdaten und dem aktuellen Szenario unterscheiden.

Verwenden des Ausbildungsmodus im Vergleich zu A/B-Tests

A/B-Tests von Personalisierungsbehandlungen sind erst sinnvoll, nachdem die Personalisierung validiert und in den Onlinemodus versetzt wurde, da im Ausbildungsmodus nur die Baselineaktion verwendet und die vorhandene Logik erlernt wird. Dies bedeutet im Wesentlichen, dass die Personalisierung die Aktion des „Steuerungsarms“ Ihres A/B-Tests zurückgibt, daher hat ein A/B-Test im Ausbildungsmodus keinen Wert.

Sobald Sie einen Anwendungsfall mit Personalisierung und Onlinelernen haben, können Ihnen A/B-Experimente das Erstellen kontrollierter Kohorten und das Durchführen von wissenschaftlichen Vergleichen von Ergebnissen erlauben, die komplexer sein können als die für Relevanzen verwendeten Signale. Eine Beispielfrage, die ein A/B-Test beantworten könnte, lautet: „Auf einer Einzelhandelswebsite optimiert die Personalisierung ein Layout und bringt mehr Benutzer früher zum Auschecken, aber führt dies zu einem verringerten Gesamtumsatz pro Transaktion?“

Nächste Schritte