two_sample_t_test_fl()

関数two_sample_t_test_fl()は、2 サンプル T-Test を実行するユーザー定義関数 (UDF) です。

注意

比較する 2 つのデータセットの分散が異なることが想定されている場合は、ネイティブ welch_test () を使用することをお勧めします。

前提条件

  • データベースで Python プラグイン を有効にする必要があります。 これは、 関数で使用されるインライン Python に必要です。

構文

T | invoke two_sample_t_test_fl(data1,data2,test_statistic,p_value,equal_var)

構文規則について詳しく知る。

パラメーター

名前 必須 説明
data1 string ✔️ テストに使用する最初のデータ セットを含む列の名前。
data2 string ✔️ テストに使用する 2 番目のデータ セットを含む列の名前。
test_statistic string ✔️ 結果のテスト統計値を格納する列の名前。
p_value string ✔️ 結果の p 値を格納する列の名前。
equal_var bool (既定値) の場合 true は、等しい母集団分散を前提とする標準の独立した 2 サンプル 検定を実行します。 false の場合、Welch の t-test を実行します。この場合、母集団の分散が等しいと想定していません。 前述のように、ネイティブ welch_test() の使用を検討してください。

関数の定義

関数を定義するには、次のようにコードをクエリ定義関数として埋め込むか、データベースに格納された関数として作成します。

次の let ステートメントを使用して関数を定義します。 権限は必要ありません。

重要

let ステートメントを単独で実行することはできません。 その後に 表形式の式ステートメントを指定する必要があります。 の動作例 two_sample_t_test_fl()を実行するには、「 」を参照してください。

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

次の例では、 invoke 演算子 を使用して関数を実行します。

クエリ定義関数を使用するには、埋め込み関数定義の後で呼び出します。

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

出力

ID sample1 sample2 test_stat p_val
テスト #1 [23.64, 20.57, 20.42] [27.1, 22.12, 33.56] -1.7415675457565645 0.15655096653487446
テスト #2 [20.85, 21.89, 23.41] [35.09, 30.02, 26.52], -3.2711673491022579 0.030755331219276136
テスト #3 [20.13, 20.5, 21.7, 22.02] [32.2, 32.79, 33.9, 34.22] -18.5515946201742 1.5823717131966134E-06

この機能はサポートされていません。