two_sample_t_test_fl()

Artykuł
01/23/2024

Funkcja two_sample_t_test_fl() jest funkcją zdefiniowaną przez użytkownika (UDF), która wykonuje test T-Two-Sample.

Uwaga

Jeśli założenie jest takie, że dwa zestawy danych do porównania mają różne wariancji, sugerujemy użycie natywnego welch_test().

Wymagania wstępne

Wtyczka języka Python musi być włączona w klastrze. Jest to wymagane w przypadku wbudowanego języka Python używanego w funkcji .

Wtyczka języka Python musi być włączona w bazie danych. Jest to wymagane w przypadku wbudowanego języka Python używanego w funkcji .

Składnia

T | invoke two_sample_t_test_fl(data1,data2,, test_statistic, p_valueequal_var)

Dowiedz się więcej o konwencjach składniowych.

Parametry

Nazwa	Typ	Wymagane	Opis
data1	`string`	✔️	Nazwa kolumny zawierającej pierwszy zestaw danych do użycia na potrzeby testu.
data2	`string`	✔️	Nazwa kolumny zawierającej drugi zestaw danych do użycia na potrzeby testu.
test_statistic	`string`	✔️	Nazwa kolumny do przechowywania wartości statystyki testowej dla wyników.
p_value	`string`	✔️	Nazwa kolumny do przechowywania wartości p dla wyników.
equal_var	`bool`		Jeśli `true` (ustawienie domyślne) wykonuje standardowy, niezależny test próbki 2, który przyjmuje równe wariancji populacji. Jeśli `false`, wykonuje test t-Welch, który nie przyjmuje równej wariancji populacji. Jak wspomniano powyżej, rozważ użycie natywnego welch_test().

Definicja funkcji

Funkcję można zdefiniować, osadzając jej kod jako funkcję zdefiniowaną przez zapytanie lub tworząc ją jako funkcję przechowywaną w bazie danych w następujący sposób:

Zdefiniowane zapytanie
Przechowywane

Zdefiniuj funkcję przy użyciu następującej instrukcji let. Nie są wymagane żadne uprawnienia.

Ważne

Instrukcja let nie może być uruchamiana samodzielnie. Po nim musi znajdować się instrukcja wyrażenia tabelarycznego. Aby uruchomić działający przykład two_sample_t_test_fl()polecenia , zobacz Przykład.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

Zdefiniuj funkcję przechowywaną raz przy użyciu następującego .create functionelementu . Uprawnienia użytkownika bazy danych są wymagane.

Ważne

Należy uruchomić ten kod, aby utworzyć funkcję przed użyciem funkcji, jak pokazano w przykładzie.

.create-or-alter function with (folder = "Packages\\Stats", docstring = "Two-Sample t-Test")
two_sample_t_test_fl(tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
}

Przykład

W poniższym przykładzie użyto operatora invoke do uruchomienia funkcji.

Zdefiniowane zapytanie
Przechowywane

Aby użyć funkcji zdefiniowanej przez zapytanie, wywołaj ją po definicji funkcji osadzonej.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas

        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]

        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Ważne

Aby można było pomyślnie uruchomić ten przykład, należy najpierw uruchomić kod definicji funkcji , aby zapisać funkcję.

datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Dane wyjściowe

ID (Identyfikator)	sample1	sample2	test_stat	p_val
Test nr 1	[23.64, 20.57, 20.42]	[27.1, 22.12, 33.56]	-1.7415675457565645	0.15655096653487446
Test nr 2	[20.85, 21.89, 23.41]	[35.09, 30.02, 26.52], -3.2711673491022579	0.030755331219276136
Test nr 3	[20.13, 20.5, 21.7, 22.02]	[32.2, 32.79, 33.9, 34.22]	-18.5515946201742	1.5823717131966134E-06

Ta funkcja nie jest obsługiwana.

Udostępnij za pośrednictwem

two_sample_t_test_fl()

Wymagania wstępne

Składnia

Parametry

Definicja funkcji

Przykład

Opinia

Opinia

Dodatkowe zasoby