중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
t-test를 사용하여 두 열의 평균을 비교합니다.
범주: 통계 함수
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)에서 t-Test 모듈을 사용하여 테스트 가설을 사용하여 세 가지 유형의 t-테스트에 대한 점수를 생성하는 방법을 설명합니다.
- 단일 샘플 T-테스트
- 쌍으로 연결된 T-테스트
- 쌍으로 연결되지 않은 T-테스트
일반적으로 T-테스트는 두 그룹의 평균이 서로 다른지를 비교하는 데 도움이 됩니다. 예를 들어 A 약을 받은 환자와 B 약을 받은 환자의 시험 데이터를 평가하고 두 그룹의 회복 속도 메트릭을 비교하려고 합니다. Null 가설에서는 회복 속도가 두 그룹에서 동일하고 회복 속도의 값이 두 그룹에서 정규 분포를 따른다고 가정합니다.
t-Test를 사용하여 테스트 가설을 사용하고 복구 속도를 입력으로 포함하는 열을 제공하면 차이가 의미 있는지 여부를 나타내는 점수를 얻을 수 있습니다. 이는 null 가설을 거부해야 함을 의미합니다. 테스트에서는 값 간의 차이, 샘플의 크기(클수록 좋음) 및 표준 편차(작을수록 좋음)와 같은 요인을 고려합니다.
t-Test 모듈을 사용하여 테스트 가설의 결과를 검토하면 null 가설이 TRUE인지 FALSE인지 확인하고 t-test에서 신뢰도(P) 점수를 검토할 수 있습니다.
t-테스트를 선택하는 방법
이러한 조건이 적용되는 경우 단일 샘플 t-테스트를 선택합니다.
단일 점수 샘플이 있습니다.
모든 점수는 서로 독립적입니다.
샘플링 분포 xˉ는 정규 분포입니다.
일반적으로 단일 샘플 T-테스트는 평균 값을 알려진 수와 비교하는 데 사용됩니다.
다음 조건이 적용되는 경우 쌍을 이루는 t-테스트를 선택합니다.
일치하는 점수 쌍이 있는 경우. 사용자당 측정값 2개 또는 남편/부인과 같이 일치하는 개인의 쌍이 있는 경우를 예로 들 수 있습니다.
각 점수 쌍은 서로 독립적입니다.
d의 샘플링 분포는 정상입니다.
쌍으로 연결된 T-테스트는 관련된 사례를 비교할 때 유용합니다. 쌍으로 연결된 사례의 점수 간 차이에 대한 평균을 구하여 총 차이가 통계적으로 의미가 있는지 여부를 결정할 수 있습니다.
다음 조건이 적용되는 경우 2차 T 테스트를 선택합니다.
두 가지 독립적인 점수 샘플이 있습니다. 즉, 샘플 1의 점수를 샘플 2의 점수와 쌍으로 연결할 근거가 없습니다.
샘플 내의 모든 점수는 서로 독립적입니다.
x1-x2의 샘플링 분포는 정상입니다.
필요에 따라 그룹 간의 차이가 대략적으로 같아야 하는 요구 사항을 충족합니다.
t-Test를 사용하여 테스트 가설을 구성하는 방법
단일 데이터 세트를 입력으로 사용합니다. 비교하는 열은 동일한 데이터 세트에 있어야 합니다.
서로 다른 데이터 세트의 열을 비교해야 하는 경우 데이터 세트에서 열 선택을 사용하여 비교할 각 열을 격리한 다음 열 추가를 사용하여 하나의 데이터 세트에 병합할 수 있습니다.
t-Test 모듈을 사용하여 테스트 가설을 실험에 추가합니다.
이 모듈은 Studio(클래식)의 통계 함수 범주에서 찾을 수 있습니다.
분석하려는 열이 포함된 데이터 세트를 추가합니다.
데이터에 적합한 T 테스트 종류를 결정합니다. t-테스트를 선택하는 방법을 참조하세요.
단일 샘플: 단일 샘플을 사용하는 경우 다음 매개 변수를 설정합니다.
Null 가설 μ: 샘플의 null 가설 평균으로 사용할 값을 입력합니다. 샘플 평균을 테스트할 예상 평균 값을 지정합니다.
대상 열: 열 선택기를 사용하여 테스트할 단일 숫자 열을 선택합니다.
가설 유형: 단측 또는 2-꼬리 테스트를 선택합니다. 기본적으로는 양측 테스트가 사용됩니다. 가장 일반적인 유형의 테스트로, 0을 중심으로 대칭인 분포를 따릅니다.
One Tail GT 옵션은 테스트보다 큰 단측을 위한 것입니다. 이 테스트는 다른 방향으로 효과를 테스트하지 않음으로써 한 방향으로 효과를 감지하는 데 더 많은 기능을 제공합니다.
One Tail LT 옵션은 테스트보다 작은 단측을 제공합니다.
α: 신뢰도 요소를 지정합니다. 이 값은 P의 값(모듈의 첫 번째 출력)을 평가하는 데 사용됩니다. p가 신뢰도 요소보다 낮으면 null 가설이 거부됩니다.
PairedSamples: 동일한 모집단의 두 샘플을 비교하는 경우 다음 매개 변수를 설정합니다.
Null 가설 μ: 샘플 쌍 간의 샘플 차이를 나타내는 값을 입력합니다.
대상 열: 열 선택기를 사용하여 테스트할 두 개의 숫자 열을 선택합니다.
가설 유형: 단측 또는 2-꼬리 테스트를 선택합니다. 기본적으로는 양측 테스트가 사용됩니다.
α: 신뢰도 요소를 지정합니다. 이 값은 P(모듈의 첫 번째 출력)의 값을 평가하는 데 사용됩니다.> p가 신뢰도 요소보다 낮으면 null 가설이 거부됩니다.
UnpairedSamples: 두 개의 납작한 샘플을 비교하는 경우 다음 매개 변수를 설정합니다.
- 동일한 분산 가정: 샘플이 다른 모집단에서 온 경우 이 옵션을 선택 취소합니다.
- Null 가설 μ1: 첫 번째 열의 평균을 입력합니다.
- Null 가설 μ2: 두 번째 열의 평균을 입력합니다.
- 대상 열: 열 선택기를 사용하여 테스트할 두 개의 숫자 열을 선택합니다.
- 가설 유형: 테스트가 단측인지 아니면 두 꼬리인지를 나타냅니다. 기본적으로는 양측 테스트가 사용됩니다.
- α: 신뢰도 요소를 지정합니다. 이 값은 P(모듈의 첫 번째 출력)의 값을 평가하는 데 사용됩니다.> p가 신뢰도 요소보다 낮으면 null 가설이 거부됩니다.
실험을 실행합니다.
결과
모듈의 출력은 t-test 점수를 포함하는 데이터 세트이며, 선택적으로 이 데이터 세트 또는 다른 데이터 세트에 다시 적용하기 위해 저장할 수 있는 변환입니다.
점수의 데이터 세트에는 사용한 t-테스트 유형에 관계없이 다음 값이 포함됩니다.
- Null 가설 신뢰도를 나타내는 확률 점수입니다.
- Null 가설을 거부해야 하는지 여부를 나타내는 값입니다.
팁
목표는 null 가설을 거부할 수 있는지 여부를 결정하는 것입니다. 점수가 0이면 null 가설을 수락해야 한다는 의미는 아닙니다. 데이터가 충분하지 않고 추가 조사가 필요하다는 의미입니다.
기술 정보
모듈에서는 선택한 T-테스트의 유형과 결과가 Null 가설 거부인지 아니면 수락인지에 따라 다음 규칙을 준수하여 출력 열의 이름을 자동으로 지정합니다.
이름과 이름을 {0}{1}가진 입력 열이 지정된 모듈은 다음 이름을 만듭니다.
| 열 | SingleSampleSet | PairedSamples | UnpairedSamples |
|---|---|---|---|
| 출력 열 P | P_ss({0}) | P_ps({0}, {1}) | P_us({0}, {1}) |
| 출력 열 RejectH0 | RejectH0_ss({0})" | RejectH0_ps({0}, {1}) | RejectH0_us({0}, {1}) |
점수 계산 방법
이 모듈은 샘플 표준 편차를 계산하고 사용합니다. 따라서 수식은 분모에 사용됩니다 (n-1) .
단일 샘플 테스트에 대한 컴퓨팅 점수
모두 서로 독립적인 단일 점수 샘플과 정규 분포를 사용하는 경우 점수는 다음과 같이 계산됩니다.
다음 입력을 가져옵니다.
- 데이터 집합의 단일 값 열
- Null 가설(H0) 매개 변수 μ0
- α로 지정된 신뢰도 점수
샘플 수(n)를 추출합니다.
샘플 데이터의 평균을 계산합니다.
샘플 데이터의 표준 편차를 계산합니다.
t 및 자유도 계산(df):

t 및 df를 사용하여 배포 테이블 T에서 확률 P를 추출합니다.
쌍을 이루는 t 테스트에 대한 점수 계산
각 쌍이 서로 독립적인 일치하는 점수 집합과 각 집합의 정규 분포를 사용하는 경우 점수는 다음과 같이 계산됩니다.
다음 입력을 가져옵니다.
- 데이터 집합의 두 값 열
- Null 가설(H0) 매개 변수 d0
- α로 지정된 신뢰도 점수
몇 가지 샘플 쌍(n)을 추출합니다.
샘플 데이터 차이의 평균을 계산합니다.

차이(sd)의 표준 편차를 계산합니다.
t 및 자유도(df)를 계산합니다.

t 및 df를 사용하여 분포 테이블(T)에서 확률(P)을 추출합니다.
납입되지 않은 t 테스트에 대한 컴퓨팅 점수
독립적인 두 점수 샘플과 각 샘플의 값 정규 분포를 사용하는 경우 점수는 다음과 같이 계산됩니다.
다음 입력을 가져옵니다.
- 두
doubles열이 포함된 데이터 집합 - Null 가설(H0) 매개 변수(d0)
- α로 지정된 신뢰도 점수
- 두
각 그룹 n1 및 n2에서 여러 샘플을 추출합니다.
각 샘플 집합의 평균을 계산합니다.
각 그룹의 표준 편차를 s1 및 s2로 계산합니다.
t 및 자유도 계산(df):
필요에 따라 그룹 간의 차이가 대략적으로 같아야 하는 요구 사항을 다음과 같이 충족합니다.
먼저 풀링된 표준 편차를 계산합니다.

차이 일치에 대한 가정이 없는 경우 다음과 같이 계산합니다.

t 및 df를 사용하여 배포 테이블(T)에서 P를 추출합니다.
null 가설 계산
P로 지정된 null 가설의 확률은 다음과 같이 계산됩니다.
P < 가 α 경우 거부 플래그를 True로 설정합니다.
P가 ≥ α 경우 거부 플래그를 False로 설정합니다.
예상 입력
| Name | Type | Description |
|---|---|---|
| 데이터 세트 | 데이터 테이블 | 입력 데이터 세트 |
모듈 매개 변수
| Name | 범위 | Type | 기본값 | Description |
|---|---|---|---|---|
| 가설 유형 | 모두 | Hypothesis | 양측 | 스튜던트의 T-테스트 Null 가설 유형입니다. |
| Null 가설 μ | 모두 | Float | 0.0 | 단일 샘플 T-테스트의 경우 샘플에 대한 Null 가설 평균입니다. 쌍으로 연결된 T-테스트의 경우에는 샘플 차이입니다. |
| 대상 열 | 모두 | ColumnSelection | 없음 | 대상 열 선택 패턴입니다. |
| 동일 차이 가정 | 모두 | 부울 | True | 두 샘플의 차이가 같다고 가정합니다. 쌍으로 연결되지 않은 샘플에만 적용됩니다. |
| Null 가설 μ1 | 모두 | Float | 0.0 | 첫 번째 샘플에 대한 Null 가설 평균입니다. |
| α | [0.0;1.0] | Float | 0.95 | 신뢰 인수입니다. P가 신뢰 인수보다 작으면 Null 가설은 거부됩니다. |
출력
| Name | Type | Description |
|---|---|---|
| P | 데이터 테이블 | Null 가설 신뢰도를 나타내는 확률 점수입니다. |
| 거부 H0 | 데이터 테이블 | Null 가설을 거부해야 하는지 여부를 나타내는 값입니다. |
예외
| 예외 | 설명 |
|---|---|
| 오류 0003 | 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다. |
| 오류 0008 | 매개 변수가 범위 내에 있지 않으면 예외가 발생합니다. |
| 오류 0017 | 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다. |
| 오류 0020 | 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다. |
| 오류 0021 | 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다. |
| 오류 0031 | 열 집합의 열 수가 필요한 수보다 적으면 예외가 발생합니다. |
| 오류 0032 | 인수가 숫자가 아니면 예외가 발생합니다. |
| 오류 0033 | 인수가 무한대이면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 MACHINE LEARNING REST API 오류 코드를 참조하세요.