実験の主要な用語

2025-05-02

実践としての実験に慣れ、重要な用語の理解を高めるには、以下をご覧ください。

実験

A/B 実験は、複数のゲームエクスペリエンス (バリアント) 構成を比較する手法です。一方、多変量実験は、複数のゲーム要素を構成し、どのような組み合わせ (バリアント) が変換目標を達成するために最適であるかを判定する手法です。

これを行うには、ユーザーをランダムに 2 つ以上のグループに分割し、一定期間にわたって各グループに異なるエクスペリエンスを提供し、収集されたテレメトリに対して統計分析を行い、実験に対して決定した目標に基づいてどのバリエーションがより適切に実行されるかを判断します

PlayFab 実験では、A/B テスト (分割テストとも呼ばれる) と多変量テストの両方がサポートされています。

変換率

変換とは、プレイヤーが実行する必要のあるアクションを指します。変換は必ずしも通貨目標に関連付けられている必要はなく、ボタンの選択操作、購入行動、プレイヤーになる行動まで、あらゆる事柄が含まれる可能性があります。

変換は実験の目的です。変換は絶対数ですが、変換率は変換数を合計プレイヤートラフィックで割った値です。

仮説

仮説は、特定の介入がプレイヤーの行動に及ぼす影響についての 1 つの主張を表現したものです。仮説は、実験するシナリオと理由、および変更後に表示される可能性がある変更に関するアイデアの組み合わせです。

セグメント

セグメントは、個別のプレイヤーを、ユーザー定義の条件に基づく共通の特性に従ってまとめ、グループ化するものです。

セグメントのカスタマイズされたエクスペリエンスを使用して実験をフライトし、対象ユーザーがより肯定的に反応するという仮説を検証できます。

対象プレイヤーの割合

プレイヤーベース全体のうち、当該実験の対象として考慮され、コントロールまたは処置のバリアントに関連付けられるプレイヤーの割合。

コントロールのバリアント

コントロールのバリアントは、実験が機能することを確認するための比較の測定値として実験で使用される既存のエクスペリエンスです。これは、実験のベースライン測定を提供します。実験の結果が実験外の要因によって生じたものではなく、提供した処置によって生じたものであることを確認するためのものです。

処置のバリアント

処置のバリアントは、実験での実験的な処置またはエクスペリエンスの違いを受け取ります。これは、A/B 実験の調査対象である処置のバリアントであり、エクスペリエンスの変化を含んでいます。

変数

変数は、機能またはエクスペリエンスの構成を設定するために定義されます。機能変数を定義すると、コードを再デプロイすることなく、機能を反復処理できます。

P 値

A/B 実験の p 値は、バリアントグループ間に違いが生じない結果になる確率です。

p 値が高い場合、A グループと B グループの違いの原因はサンプリングノイズであることが示唆されます。 p 値が低い (しきい値を下回る) 場合は、バリアント間に確かな違いがあり、示された差異はほぼそのまま実質的な差異である可能性が高いと考えられます。

信頼区間

A/B テストでは、信頼区間はサンプリング誤差のリスクを軽減し、ある意味で新しいバリアントの実装に関連するリスクを管理します。このツールで "変換率が X% +/- Y% であることを 95% 信頼しています" という結果が示された場合は、+/- Y% を誤差のマージンとして考慮する必要があります。結果の信頼性は、誤差の余白の大きさによって大きく左右されます。 2 つの変換範囲が重複する場合は、テストを続けて有効な結果を取得する必要があります。

タイプ 1 エラー: タイプ 1 エラーは「偽陽性」の測定値です。つまり、実験のバリエーションによって統計的に有意な差が生じているという誤判定です。テストによって、有意差があると宣言されましたが、有意差はないことが判明します。

タイプ 2 エラー: タイプ 2 エラーは「偽陰性」の測定値です。つまり、実験のバリエーションによって統計的に有意な差が生じていないという誤判定です。コントロールとバリエーションの間には有意差があるのに有意差はないと宣言されます。