Udostępnij za pośrednictwem


two_sample_t_test_fl()

Funkcja two_sample_t_test_fl() jest funkcją zdefiniowaną przez użytkownika (UDF), która wykonuje test T-Two-Sample.

Uwaga

Jeśli założenie jest takie, że dwa zestawy danych do porównania mają różne wariancji, sugerujemy użycie natywnego welch_test().

Wymagania wstępne

  • Wtyczka języka Python musi być włączona w klastrze. Jest to wymagane w przypadku wbudowanego języka Python używanego w funkcji .
  • Wtyczka języka Python musi być włączona w bazie danych. Jest to wymagane w przypadku wbudowanego języka Python używanego w funkcji .

Składnia

T | invoke two_sample_t_test_fl(data1,data2,, test_statistic, p_valueequal_var)

Dowiedz się więcej o konwencjach składniowych.

Parametry

Nazwa Typ Wymagane Opis
data1 string ✔️ Nazwa kolumny zawierającej pierwszy zestaw danych do użycia na potrzeby testu.
data2 string ✔️ Nazwa kolumny zawierającej drugi zestaw danych do użycia na potrzeby testu.
test_statistic string ✔️ Nazwa kolumny do przechowywania wartości statystyki testowej dla wyników.
p_value string ✔️ Nazwa kolumny do przechowywania wartości p dla wyników.
equal_var bool Jeśli true (ustawienie domyślne) wykonuje standardowy, niezależny test próbki 2, który przyjmuje równe wariancji populacji. Jeśli false, wykonuje test t-Welch, który nie przyjmuje równej wariancji populacji. Jak wspomniano powyżej, rozważ użycie natywnego welch_test().

Definicja funkcji

Funkcję można zdefiniować, osadzając jej kod jako funkcję zdefiniowaną przez zapytanie lub tworząc ją jako funkcję przechowywaną w bazie danych w następujący sposób:

Zdefiniuj funkcję przy użyciu następującej instrukcji let. Nie są wymagane żadne uprawnienia.

Ważne

Instrukcja let nie może być uruchamiana samodzielnie. Po nim musi znajdować się instrukcja wyrażenia tabelarycznego. Aby uruchomić działający przykład two_sample_t_test_fl()polecenia , zobacz Przykład.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

Przykład

W poniższym przykładzie użyto operatora invoke do uruchomienia funkcji.

Aby użyć funkcji zdefiniowanej przez zapytanie, wywołaj ją po definicji funkcji osadzonej.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Dane wyjściowe

ID (Identyfikator) sample1 sample2 test_stat p_val
Test nr 1 [23.64, 20.57, 20.42] [27.1, 22.12, 33.56] -1.7415675457565645 0.15655096653487446
Test nr 2 [20.85, 21.89, 23.41] [35.09, 30.02, 26.52], -3.2711673491022579 0.030755331219276136
Test nr 3 [20.13, 20.5, 21.7, 22.02] [32.2, 32.79, 33.9, 34.22] -18.5515946201742 1.5823717131966134E-06

Ta funkcja nie jest obsługiwana.