two_sample_t_test_fl()

2024-11-23

Область применения: ✅Microsoft Fabric ✅Azure Data Explorer

Функция — это определяемая пользователем функция two_sample_t_test_fl() (UDF), которая выполняет двух примерЫ T-Test.

Примечание.

Если предполагается, что два набора данных для сравнения имеют разные дисперсии, мы рекомендуем использовать собственные welch_test().

Необходимые компоненты

Подключаемый модуль Python должен быть включен в кластере. Это необходимо для встроенного Python, используемого в функции.

Подключаемый модуль Python должен быть включен в базе данных. Это необходимо для встроенного Python, используемого в функции.

Синтаксис

T | invoke two_sample_t_test_fl(data1, data2, test_statistic p_value equal_var, ,)

Дополнительные сведения о соглашениях синтаксиса.

Параметры

Имя (название)	Type	Обязательно	Описание
data1	`string`	✔️	Имя столбца, содержащего первый набор данных, используемый для теста.
data2	`string`	✔️	Имя столбца, содержащего второй набор данных, который будет использоваться для теста.
test_statistic	`string`	✔️	Имя столбца для хранения тестового статистических значений для результатов.
p_value	`string`	✔️	Имя столбца для хранения p-value для результатов.
equal_var	`bool`		Если `true` (по умолчанию) выполняет стандартный независимый 2 пример теста, предполагающий равные дисперсии населения. Если `false`, выполняет t-тест Welch, который не предполагает равной дисперсии населения. Как упоминалось выше, рассмотрите возможность использования собственного welch_test().

Определение функции

Вы можете определить функцию, внедрив код как определяемую запросом функцию или создав ее в качестве хранимой функции в базе данных следующим образом:

Определяемый запросом
Запасенный

Определите функцию с помощью следующей инструкции let. Разрешения не требуются.

Внимание

Инструкция let не может выполняться самостоятельно. За ним следует оператор табличного выражения. Пример выполнения рабочего примера two_sample_t_test_fl()см. в разделе "Пример".

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.

Определите хранимую функцию один раз, используя следующую .create function. Необходимы разрешения пользователя базы данных.

Внимание

Чтобы создать функцию, необходимо запустить этот код, прежде чем использовать функцию, как показано в примере.

.create-or-alter function with (folder = "Packages\\Stats", docstring = "Two-Sample t-Test")
two_sample_t_test_fl(tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
}

Пример

В следующем примере для запуска функции используется оператор вызова.

Определяемый запросом
Запасенный

Чтобы использовать определяемую запросом функцию, вызовите ее после внедренного определения функции.

let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
    let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
    let code = ```if 1:
        from scipy import stats
        import pandas
        
        data1 = kargs["data1"]
        data2 = kargs["data2"]
        test_statistic = kargs["test_statistic"]
        p_value = kargs["p_value"]
        equal_var = kargs["equal_var"]
        
        def func(row):
            statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
            return statistics[0], statistics[1]
        result = df
        result[[test_statistic, p_value]]  = df.apply(func, axis=1, result_type = "expand")
    ```;
    tbl
    | evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Внимание

Для успешного выполнения этого примера необходимо сначала запустить код определения функции для хранения функции.

datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')

Выходные данные

ID	пример1	пример2	test_stat	p_val
Тест #1	[23.64, 20.57, 20.42]	[27.1, 22.12, 33.56]	-1.7415675457565645	0.15655096653487446
Тест #2	[20.85, 21.89, 23.41]	[35.09, 30.02, 26.52], -3.2711673491022579	0.030755331219276136
Тест #3	[20.13, 20.5, 21.7, 22.02]	[32.2, 32.79, 33.9, 34.22]	-18.5515946201742	1.5823717131966134E-06

Поделиться через

two_sample_t_test_fl()

Необходимые компоненты

Синтаксис

Параметры

Определение функции

Пример

Обратная связь

Дополнительные ресурсы