Примечание
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Область применения: ✅Microsoft Fabric✅Azure Data Explorer
Функция — это определяемая пользователем функция two_sample_t_test_fl()
(UDF), которая выполняет двух примерЫ T-Test.
Примечание.
Если предполагается, что два набора данных для сравнения имеют разные дисперсии, мы рекомендуем использовать собственные welch_test().
Необходимые компоненты
- Подключаемый модуль Python должен быть включен в кластере. Это необходимо для встроенного Python, используемого в функции.
- Подключаемый модуль Python должен быть включен в базе данных. Это необходимо для встроенного Python, используемого в функции.
Синтаксис
T | invoke two_sample_t_test_fl(
data1,
data2,
test_statistic p_value equal_var,
,
)
Дополнительные сведения о соглашениях синтаксиса.
Параметры
Имя (название) | Type | Обязательно | Описание |
---|---|---|---|
data1 | string |
✔️ | Имя столбца, содержащего первый набор данных, используемый для теста. |
data2 | string |
✔️ | Имя столбца, содержащего второй набор данных, который будет использоваться для теста. |
test_statistic | string |
✔️ | Имя столбца для хранения тестового статистических значений для результатов. |
p_value | string |
✔️ | Имя столбца для хранения p-value для результатов. |
equal_var | bool |
Если true (по умолчанию) выполняет стандартный независимый 2 пример теста, предполагающий равные дисперсии населения. Если false , выполняет t-тест Welch, который не предполагает равной дисперсии населения. Как упоминалось выше, рассмотрите возможность использования собственного welch_test(). |
Определение функции
Вы можете определить функцию, внедрив код как определяемую запросом функцию или создав ее в качестве хранимой функции в базе данных следующим образом:
Определите функцию с помощью следующей инструкции let. Разрешения не требуются.
Внимание
Инструкция let не может выполняться самостоятельно. За ним следует оператор табличного выражения. Пример выполнения рабочего примера two_sample_t_test_fl()
см. в разделе "Пример".
let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
let code = ```if 1:
from scipy import stats
import pandas
data1 = kargs["data1"]
data2 = kargs["data2"]
test_statistic = kargs["test_statistic"]
p_value = kargs["p_value"]
equal_var = kargs["equal_var"]
def func(row):
statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
return statistics[0], statistics[1]
result = df
result[[test_statistic, p_value]] = df.apply(func, axis=1, result_type = "expand")
```;
tbl
| evaluate python(typeof(*), code, kwargs)
};
// Write your query to use the function here.
Пример
В следующем примере для запуска функции используется оператор вызова.
Чтобы использовать определяемую запросом функцию, вызовите ее после внедренного определения функции.
let two_sample_t_test_fl = (tbl:(*), data1:string, data2:string, test_statistic:string, p_value:string, equal_var:bool=true)
{
let kwargs = bag_pack('data1', data1, 'data2', data2, 'test_statistic', test_statistic, 'p_value', p_value, 'equal_var', equal_var);
let code = ```if 1:
from scipy import stats
import pandas
data1 = kargs["data1"]
data2 = kargs["data2"]
test_statistic = kargs["test_statistic"]
p_value = kargs["p_value"]
equal_var = kargs["equal_var"]
def func(row):
statistics = stats.ttest_ind(row[data1], row[data2], equal_var=equal_var)
return statistics[0], statistics[1]
result = df
result[[test_statistic, p_value]] = df.apply(func, axis=1, result_type = "expand")
```;
tbl
| evaluate python(typeof(*), code, kwargs)
};
datatable(id:string, sample1:dynamic, sample2:dynamic) [
'Test #1', dynamic([23.64, 20.57, 20.42]), dynamic([27.1, 22.12, 33.56]),
'Test #2', dynamic([20.85, 21.89, 23.41]), dynamic([35.09, 30.02, 26.52]),
'Test #3', dynamic([20.13, 20.5, 21.7, 22.02]), dynamic([32.2, 32.79, 33.9, 34.22])
]
| extend test_stat= 0.0, p_val = 0.0
| invoke two_sample_t_test_fl('sample1', 'sample2', 'test_stat', 'p_val')
Выходные данные
ID | пример1 | пример2 | test_stat | p_val |
---|---|---|---|---|
Тест #1 | [23.64, 20.57, 20.42] | [27.1, 22.12, 33.56] | -1.7415675457565645 | 0.15655096653487446 |
Тест #2 | [20.85, 21.89, 23.41] | [35.09, 30.02, 26.52], -3.2711673491022579 | 0.030755331219276136 | |
Тест #3 | [20.13, 20.5, 21.7, 22.02] | [32.2, 32.79, 33.9, 34.22] | -18.5515946201742 | 1.5823717131966134E-06 |