Zusammenfassung der Experimente

Artikel
10/13/2023

Dieser Leitfaden führt Sie in die Praxis des Experimentierens ein. Es wird erläutert, warum Sie frühzeitig experimentieren sollten, empfehlungen für bewährte Methoden und enthält Informationen, die Ihnen helfen, sich mit dem Prozess vertraut zu machen.

Gründe für Das Experiment ist wichtig

Experimente sind der Goldstandard, um die Auswirkungen von Änderungen an der Spielerfahrung zu identifizieren. Wenn Sie die Auswirkungen von Spielerfahrungsänderungen verstehen und über Daten verfügen, die sie sichern können, ist es einfacher, eine Entscheidung zu treffen, die es Ihnen ermöglicht, effektivere Spieldesigns, Erfahrungen und Marketingstrategien zu entwickeln. Kontinuierliche Experimente ermöglichen es Ihnen, zu bestimmen, ob die Effektivität Ihrer Änderungen im Laufe der Zeit abnimmt.

Unabhängig davon, in welcher Phase der Spielentwicklung (Erstellung oder Betrieb) Sie sich gerade befinden, ermöglicht PlayFab Experiments Einzelpersonen, Teams und Studios, sorgfältige Änderungen an den Spielerlebnissen vorzunehmen und gleichzeitig empirische Daten zu sammeln, was Ihnen wiederum hilft, herauszufinden, was genau für das Spiel am besten geeignet ist.

Experimente sind eine effektive Methode, die Ihnen Einblicke in das Verhalten eines Spielers in einer kontrollierten und begrenzten Zielgruppe (Spielerdatenverkehr) gibt. So schützen Sie Ihre Spielerbasis vor einer unbefriedigenden Spielerfahrung. Außerdem können Sie die Ressourcen besser nutzen und Spielfeatures in einem Livespiel ganz einfach aktivieren oder deaktivieren. Experimente helfen Ihnen dabei, sich von der Entscheidungsfindungsmacht "wir denken" in "wir wissen" zu transformieren. Es ist eine effektive Methode, die Ihnen Einblicke in das Verhalten von Spielern mit kontrollierter und begrenzter Zielgruppe (Spielerdatenverkehr) gibt. So schützen Sie Ihre Spielerbasis vor abstoßenden Spielerlebnissen. Außerdem kann man die Ressourcen besser nutzen und Spielfeatures in einem Livespiel einfach aktivieren/deaktivieren.

Hier sind einige allgemeine Ziele für Spielestudios beim Experimentieren:

Erhöhte Anzahl aktiver Spieler
Höhere Konvertierungsrate
Niedrigere Änderungsrate

Vertrauenswürdigkeit des Experiments ist wichtig

Wenn Sie Entscheidungen basierend auf den Ergebnissen von Experimenten treffen, die Sie ausführen, sollten Sie sicherstellen, dass eine Beziehung/Ursache vorhanden ist. Die Vertrauenswürdigkeit eines Experiments wird mit der statistischen Signifikanz der Experimentergebnisse gleichgesetzt.

Vertrauenswürdigkeit steht im Mittelpunkt der Experimentergebnisse von PlayFab. Alle Metriken werden auf statistische Signifikanz überprüft.

Wenn Sie z. B. ein Experiment ausführen, das eine Erhöhung der Aufbewahrung um zwei Prozent misst und als statistisch signifikant mit einem p-Wert von 0,04 angezeigt wird, bedeutet dies, dass eine Wahrscheinlichkeit von 4 % besteht, dass ein Ergebnis von 2 % oder mehr unter der Annahme, dass es keinen Unterschied zwischen A und B gab (d. h. die NULL-Hypothese ist wahr). Der wahre Unterschied ist nicht direkt messbar, und Statistiken werden verwendet, um eine vernünftige Schätzung zu erhalten. Es besteht die Möglichkeit, dass Rauschen (Zufall) uns in die Irre führt.

Die statistische Signifikanz ist wichtig, da sie Ihre Risikotoleranz und Ihr Konfidenzniveau widerspiegelt. Die Metriken können von Tag zu Tag schwanken, und statistische Analysen bieten die solide mathematische Grundlage für geschäftsbezogene Entscheidungen in einer lauten Umgebung.

PlayFab-Experimente kennzeichnet Metrikbewegungen als statistisch signifikant bei 95 % Konfidenz oder einem p-Wert von 0,05.

Sample Ratio Mismatch (SRM)

Ein Stichprobenverhältniskonflikt (als SRM bezeichnet) ist eine Datenqualitätsprüfung, die auf einen signifikanten Unterschied zwischen den erwarteten Anteilen der Benutzer zwischen den Experimentvarianten (z. B. vor Dem Starten des Experiments konfiguriert) und den tatsächlichen Anteilen der Am Ende des Experiments beobachteten Benutzer angibt.

Ein SRM gibt an, dass einige Daten fehlen oder ein Redundanzproblem vorliegt, das die Steuerungs- und Behandlungsvarianten uneinheitlich beeinflusst. Das Grundprinzip kontrollierter Experimente erfordert, dass die Behandlungs- und Kontrollvarianten statistisch gleichwertig sein müssen. Wenn dieses Prinzip verletzt wird, können die Ergebnisse des Experiments unter einer Auswahlverzerrung leiden.

Eine Analyse mit SRMs wird als nicht vertrauenswürdig angesehen, und Sie sollten sie nicht zum Treffen von Entscheidungen verwenden. Wenn ein Experiment über ein SRM verfügt, ziehen Sie keine Schlussfolgerungen aus der Analyse (erst wenn Sie sich mit dem SRM befasst haben).

Erkennen von SRM

Nehmen wir ein Beispiel, bei dem ein Experiment so konfiguriert ist, dass es mit 10 % Datenverkehr in jeder Steuerungs- und Behandlungsvariante ausgeführt wird.

Typ	1 Tag	2 Day	3 Tage	5 Tage	7 Tage	14 Tage	21 Tage
Anzahl der Behandlungsvarianten	105	1,050	10,500	105,000	1,050,000	10,500,000	100,500,000
Anzahl von Steuerelementvarianten	100	1,000	10,000	100,000	1,000,000	10,000,000	100,000,000
Stichprobenverhältnis	1.05	1.05	1.05	1.05	1.05	1.05	1.05
SRM-p-Wert	0.7269	0.2695	0.0005	~=0	~=0	~=0	~=0

Auch wenn in diesem Szenario das tatsächliche Verhältnis zwischen den beiden Flügen in jedem Szenario identisch ist, hat man einen immer kleineren p-Wert für eine größere Benutzeranzahl in Behandlung und Kontrolle. Dies weist darauf hin, dass das beobachtete Ergebnis nicht den Erwartungen entspricht.

Untersuchen von SRM

SRM-Untersuchung und -Lösung sind ein komplexer und unsicherer Prozess. Daher erfordert die Lösung eines SRM einen strukturellen Ansatz mit einem Panorama und einem Bewusstsein für die Wahrscheinlichkeit von Grundursachen und Lösungsstrategien. Hierfür gilt:

Beginnen Sie mit der Frage "Warum ist dies passiert?"
Formulieren einer Hypothese zur Ursache dieses SRM
Vorhersagen, was die beobachteten Beweise wären, wenn diese Hypothese wahr wäre
Diese Beweise finden
Analysieren der Ursache zum Identifizieren einer Lösung

Das Stellen von Folgefragen kann bei der Untersuchung helfen, die notwendigen Schritte für die Lösung zu erarbeiten. Beispiel:

Ist dies nur in einer Analyse/einem Experiment oder in mehreren aufgetreten?
Was bewirkt die Behandlung? Was ist die Natur des Experiments?
Änderung zwischen jetzt (SRM) und früher (vorheriges Experiment ohne SRM)
Hat sich eine der Ansichten, Pipelines und Filter geändert?

Häufige Grundursachen für SRMs

Die Behandlungserfahrung im Spiel stürzt mehr ab als die Kontrolle
Behandlungserfahrung unbeabsichtigtes Senden unterschiedlicher Datenmengen. Beispielsweise erhöht ein Experiment auf dem Client, das den Telemetriepuffer vergrößert, die Menge der Daten, die es zurückgibt, sicherlich, was zu einem SRM führt.

Experimente als Praxis

Beginnen Sie mit einer Hypothese

Hypothesize, um sicherzustellen, dass das Experiment ein klares Ziel und Szenario für das Experiment hat. Stellen Sie außerdem sicher, dass die von Ihnen getesteten Änderungen wichtig genug sind.

Verwenden Sie die folgende Vorlage, um eine Hypothese zu erstellen:

Aufgrund der Beobachtung [A] und des Feedbacks [B] wird angenommen, dass eine Änderung von [C] für Spieler [D] [E] bewirken wird. Es wird überprüft, wenn ich [F] sehe und [G] erhalte.
Experiment richtig planen

Um zuverlässige Ergebnisse zu erhalten, führen Sie Ihre A/B-Experimente für vergleichbare Zeiträume aus. Berücksichtigen Sie saisonale Spitzen und Tiefs.
Dauer eines Experiments

Geben Sie dem Experiment genügend Zeit. Unzureichende Zeit für das Experiment kann die Ergebnisse verzerren. Wenn die Laufzeit zu kurz ist, sammeln Sie möglicherweise nicht genügend Datenpunkte für eine statistisch genaue Schlussfolgerung. Wenn die Laufzeit zu lang ist, riskieren Sie möglicherweise fehlende Konvertierungen, indem Sie die gewinnende Variante nicht auf die Potenziale rollen. Wenn Sie zweifeln, ist es absolut sinnvoll, einen erneuten Test durchzuführen.
Achten Sie auf % eines Fluges

Der Prozentsatz des Fluges bestimmt Ihre Stichprobengröße. Wenden Sie die Zielgruppe mit der richtigen Stichprobengröße an. Andernfalls erhalten Sie keine zuverlässigen Ergebnisse, und die basierend auf diesen Daten getroffenen Entscheidungen sind möglicherweise fehlerhaft.
Vermeiden von Fehler vom Typ 1 und Typ 2 Statistiken in Experimenten bieten Wahrscheinlichkeit, keine Sicherheit. Daher kann es keine 100%iger Sicherheit geben, ob eine Variante des Experiments am besten geeignet ist. Vermeiden Sie daher Fehler vom Typ 1 und Typ 2.

Um Fehler vom Typ 1 zu vermeiden, erhöhen Sie die erforderliche Signifikanzstufe, bevor Sie eine Entscheidung treffen (was wir für Sie getan haben, indem wir sie standardmäßig auf 95 % festlegen) und führen Sie das Experiment länger aus, um weitere Daten zu sammeln. Um die Wahrscheinlichkeit eines Fehlers vom Typ 2 zu verringern, erhöhen Sie die Flighting-Population des Experiments (Stichprobengröße).
Nehmen Sie keine Änderungen an einem Experiment vor.

Wenn Sie den Test vor dem Ende der idealen Dauer unterbrechen oder neue Variablen einführen, die nicht Teil der ursprünglichen Hypothese waren, sind die Ergebnisse nicht zuverlässig. Das heißt, es wäre schwierig zu bestimmen, ob eine der Änderungen den Lift bei Konvertierungen oder nur eine zufällige Chance verursacht hat.

Beachten Sie: Je mehr Variationen es gibt, desto länger müssen Sie die Tests ausführen, um zuverlässige Ergebnisse zu erhalten. Verfolgen Sie einen präzisen Ansatz. Es wird empfohlen, gleichzeitig mit 2-4 Variablen in einer beliebigen Variantengruppe zu experimentieren. Dies bietet die beste Balance zwischen Testdauer und Effizienz.
Achten Sie auf die statistische Signifikanz, die im p-Wert widergespiegelt wird.

Stellen Sie sicher, dass die Daten zuverlässig sind. Das Maß für die Datenzulässigkeit ist die statistische Signifikanz, die bestimmt, dass die Ergebnisse nicht auf zufallsbedingte Zufall zurückzuführen sind.

p-Werte werden verwendet, um die statistische Signifikanz in einer NULL-Hypothese zu bestimmen, auf der AB-Experimente basieren. Es misst die Kompatibilität zwischen den gesammelten Daten und der NULL-Hypothese. Je niedriger sie ist, desto sicherer kann man die NULL-Hypothese ablehnen.
Bleiben Sie offen.

Manchmal sind Sie vielleicht versucht, statistische Informationen zu ignorieren, anstatt herkömmliches Wissen oder sogar frühere Erfahrungen zu verwenden, um die Entscheidung zu treffen – egal, wie sehr sie Sie überrascht. Wenn Sie von den Ergebnissen eines Tests nicht überzeugt sind, führen Sie ihn erneut aus, und vergleichen Sie die Daten.

Übernehmen von Experimenten Kultur und Prozess

Experimentkultur ist wertvoll. Sie müssen es als Teil der anderen Prozesse verwenden, damit alle davon organization profitieren. Konsistente A/B-Experimente können die Konvertierung erheblich verbessern, da Sie eine größere Chance haben, Wege zu finden, um einen positiven Produktwert für die Spieler zu erreichen.

Sie können das Entscheidungsparadigma von der Verwendung von HiPPOs (der Meinung der am höchsten bezahlten Person) zu datengesteuerten Entscheidungen verlagern. Weitere Mitarbeiterideen werden tageslicht in Form von Tests sehen. Wenn Es einfach ist, Ideen auszuprobieren, sprechen Sie über Ergebnisse und die nächsten Schritte. Darüber hinaus fühlen sich die Mitarbeiter motiviert, zur Arbeit zu kommen.

Um eine Experimentierkultur zu erstellen, führen Sie zuverlässige und wiederholbare Prozesse für die Spieliteration ein. Mit den folgenden grundlegenden Schritten können Sie eine Kultur konstanter Experimente abrufen:

Ziele festlegen

Umsetzbare Experimentziele (z. B. Engagement) ermöglichen es dem Team, mit Experimenten voranzukommen, anstatt in abstrakten Zielen wie "Wachstum" stecken zu bleiben.
Testen Sie mehr mit dem Support Ihres Teams und priorisieren Sie

Sammeln und analysieren Sie qualitative und quantitative Daten, sodass Hypothesen/Ideen basierend auf den geschäftlichen Auswirkungen brainstorming und priorisiert werden können. Führen Sie Ihr Team während der gesamten Experimentierreise mithilfe eines zuverlässigen und wiederholbaren Frameworks. Andernfalls fühlt sich das Team verloren, wenn Sie es plötzlich bitten, mehr zu experimentieren und mehrere Änderungen vorzunehmen.
Kommunizieren von Ergebnissen an Ihr Team

Schaffen Sie Dynamik beim Experimentieren, indem Sie Testergebnisse als Team kommunizieren. Die Freigabe bietet dem Team Erkenntnisse darüber, wie zukünftige Tests durchlaufen und verbessert werden können. Das begeistert die Menschen für weitere Experimente.
Fehler annehmen

Fehler sind Teil des Testens, Normalisieren von Fehlern. Lassen Sie nicht zu, dass Fehler experimentieren, reflektieren, lernen und fortfahren, um weiter zu experimentieren.
Gute Experimenthygiene üben

Erstellen Sie ein Standardprotokoll für jedes Experiment, das Ihr Team ausführt. Es hilft, die Ergebnisse der Experimente genau und aussagekräftig zu halten, unabhängig davon, wer das Experiment steuert.

Empfohlener Planungsprozess für die Ausführung von Experimenten

Phasen	Beschreibung
Verkaufschancenanalyse
Untersuchung	Der Experimentbesitzer untersucht und analysiert Experimentmöglichkeiten. Priorisieren der Experimente
Experimententwurf
Scoping	Starten Sie den Experimententwurf. Identifizieren von Zielmetriken zum Formulieren einer Hypothese
Überprüfung des Featureentwurfs	Fertigstellen des Entwurfs für Funktions-/Erfahrungsänderungen. Im Rahmen des Experiments wird eine Behandlungsvariantengruppe über Variablen eingeführt.
Codierung	Implementieren der Featureänderung
Prod-Bereitstellung	Überprüfen Sie den Experimententwurf. Bereitstellen des zugeordneten Codes
Erstellung von Experimenten
Experimentkonfiguration	Erstellen eines Experiments in PlayFab
Experimentausführung
Ausführen eines A/B-Experiments	Das Experiment beginnt gemäß der Experimentkonfiguration. Erfahrungen werden für die Zielgruppe orchestriert. Telemetriedaten werden gesammelt, und es werden statistische Berechnungen durchgeführt.
Experimentanalyse
Ergebnisse auswerten	Auswerten der Ergebnisse über Scorecards
Entscheidung für den Start treffen	Projektbeteiligte bewerten die Einführungsentscheidung
Rollout oder Rollback
Abschlussexperiment	Die Gewinnvariante wird auf 100 % der Zielgruppe aufgerollt.