불연속 값 바꾸기
중요
Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.
2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.
- ML Studio(클래식)에서 Azure Machine Learning으로 기계 학습 프로젝트 이동에 대한 정보를 참조하세요.
- Azure Machine Learning에 대한 자세한 정보.
ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.
다른 열을 기준으로 열의 불연속 값을 숫자 값으로 바꾸기
범주: 통계 함수
모듈 개요
이 문서에서는 Machine Learning Studio(클래식)에서 불연속 값 바꾸기 모듈을 사용하여 불연속 값을 나타내는 데 사용할 수 있는 확률 점수를 생성하는 방법을 설명합니다. 이 점수는 불연속 값의 정보 값을 이해하는 데 유용할 수 있습니다.
작동 방법:
불연속(또는 범주) 값이 포함된 열을 선택한 다음 참조에 사용할 다른 열을 선택합니다.
두 번째 열이 범주 열인지 범주가 아닌지에 따라 모듈은 다음 값 중 하나를 계산합니다.
- 첫 번째 열의 값이 지정된 두 번째 열의 조건부 확률 입니다.
- 첫 번째 열의 각 값 그룹에 대한 평균 및 표준 편차 입니다.
이 모듈은 점수가 있는 데이터 세트와 다른 데이터 세트에 저장하고 적용할 수 있는 함수를 모두 출력합니다.
불연속 값 바꾸기를 구성하는 방법
팁
한 번에 한 쌍의 열만 사용하는 것이 좋습니다. 분석할 여러 열을 선택하는 경우 모듈에서 오류가 발생하지 않습니다. 그러나 실제로 여러 열을 선택하는 경우 선택 순서가 아니라 내부 추론과 일치합니다.
따라서 매번 한 쌍의 열을 선택하는 것이 좋습니다. 하나는 불연속 열 에 대해, 다른 하나는 대체 열에 대해 선택합니다.
여러 열에 대한 점수를 생성해야 하는 경우 별개의 값 바꾸기 인스턴스를 사용합니다.
불 연속 값 바꾸기 모듈을 실험에 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 실험 항목 목록에서 통계 함수 그룹에서 찾을 수 있습니다.
범주 데이터의 열이 하나 이상 포함된 데이터 세트를 커넥트.
불연속 열: 열 시작 선택기를 클릭하여 불연속(또는 범주) 값이 포함된 열을 선택합니다.
선택한 불연속 열은 범주여야 합니다. 오류가 발생하면 메타데이터 편집 모듈을 사용하여 열 형식을 변경합니다.
대체 열: 열 선택기 시작을 클릭하여 대체 점수를 계산하는 데 사용할 값이 포함된 열을 선택합니다.
불연속 열에 대해 여러 열을 선택하는 경우 같은 수의 대체 열을 선택해야 합니다.
실험을 실행합니다.
참고
적용할 통계 함수는 선택할 수 없습니다. 모듈은 대체 열에 대해 선택한 열의 데이터 형식에 따라 적절한 측정값을 계산합니다.
결과
모듈은 각 열 쌍에 대해 다음 값 중 하나를 계산합니다.
두 번째 열에 범주 값이 포함된 경우 모듈은 첫 번째 열의 값을 고려하여 두 번째 열의 조건부 확률 을 계산합니다.
예를 들어 인구 조사 데이터 세트에서 불연속 열로 선택하고
occupation
대체 열로 선택gender
해야 합니다. 모듈의 출력은 다음과 같습니다.P(gender | occupation)
두 번째 열에 숫자로 변환할 수 있는 범주가 아닌 값(예: 범주로 표시되지 않은 숫자 또는 부울 값)이 포함된 경우 모듈은 첫 번째 열의 각 값 그룹에 대한 평균 및 표준 편차 를 출력합니다.
예를 들어 불연속 열로 사용하고
occupation
다른 열은 숫자 열hours-per-week
이라고 가정합니다. 모듈은 다음과 같은 새 값을 출력합니다.Mean(hours-per-week | occupation)
Std-Dev(hours-per-week | occupation)
확률 점수 외에도 모듈은 변환된 데이터 세트를 출력합니다. 이 데이터 세트에서 대체 열 로 선택한 열은 계산된 점수를 포함하는 열로 바뀝니다.
팁
원본 데이터 세트의 열은 작업에 의해 실제로 변경되거나 삭제되지 않습니다. 점수 열은 원본 데이터 대신 모듈 및 출력에서 생성된 새 열입니다.
확률 점수와 함께 원본 값을 보려면 열 추가 모듈을 사용합니다.
예
불연속 값 바꾸기의 사용법은 몇 가지 간단한 예제에서 확인할 수 있습니다.
예제 1 - 범주 값을 확률 점수로 바꾸기
아래 표에는 범주 열 X와 열 Y가 포함되어 있습니다. Y 열에는 범주 값으로 처리되는 True/False 값이 들어 있습니다. 불연속 값 바꾸기를 사용하는 경우 세 번째 열에 표시된 것처럼 X가 지정된 Y의 확률에 대한 조건부 확률 점수를 계산합니다.
X | Y | P(Y|X) |
---|---|---|
파랑 | 0 | P(Y=0|X=Blue) = 0.5 |
파랑 | 1 | P(Y=1|X=Blue) = 0.5 |
녹색 | 0 | P(Y=0|X=Green) = 2/3 |
녹색 | 0 | P(Y=0|X=Green) = 2/3 |
녹색 | 1 | P(Y=1|X=Green) = 1/3 |
빨강 | 0 | P(Y=0|X=Red) = .75 |
빨강 | 0 | P(Y=0|X=Red) = .75 |
빨간색 | 1 | P(Y=1|X=Red) = .25 |
빨강 | 0 | P(Y=0|X=Red) = .75 |
예제 2 - 범주가 아닌 열을 기반으로 평균 및 표준 편차 계산
두 번째 열이 숫자인 경우 불 연속 값 바꾸기 는 조건부 확률 점수 대신 평균 및 표준 편차를 계산합니다.
다음 예제는 다음과 같이 간소화된 자동 가격 샘플 데이터 세트를 기반으로 합니다.
열의 작은 하위 집합이 선택되었습니다.
파티션 및 샘플 모듈의 헤드 옵션을 사용하여 상위 30개 행만 추출되었습니다.
불연속 값 바꾸기 모듈은 차량 연석 가중치의 평균 및 표준 편차를 계산하는 데 사용되었습니다. 범주 열을
num-of-doors
지정합니다.
다음 표에서는 결과를 보여 줍니다.
본문 | 도어 수 | 정비 중량 | 평균(정비 중량|도어 수) | 표준 편차(정비 중량|도어 수) |
---|---|---|---|---|
std | two | 2548 | 2429.785714 | 507.45699 |
std | 4 | 2337 | 2625.6 | 493.409877 |
std | two | 2507 | 2429.785714 | 507.45699 |
turbo | 4 | 3086 | 2625.6 5 | 493.409877 |
std | 4 | 1989 | 2625.6 | 493.409877 |
turbo | 2191 | |||
std | 4 | 2535 | 2625.6 | 493.409877 |
Excel 함수를 사용하여 각 값 그룹에 대한 평균을 AVERAGEIF
확인할 수 있습니다.
예제 3 - 누락된 값 처리
이 예제에서는 조건부 확률 점수를 계산할 때 누락 값(null)이 결과에 전파되는 방법을 보여 줍니다.
불연속 값 열과 계산 조회 열에 누락 값이 있으면 새 열에 누락 값이 전파됩니다.
불연속 값 열에 누락 값만 포함되어 있으면 모듈이 열을 처리할 수 없으며 오류 메시지가 표시됩니다.
X | Y | P(Y|X) |
---|---|---|
1 | True | P(Y=true|X=1) = 1/2 |
1 | False | P(Y=false|X=1) = 1/2 |
2 | True | P(Y=true|X=2) = 1/3 |
2 | False | P(Y=false|X=2) = 1/3 |
2 | Null | P(Y=null|X=2) = null |
기술 정보
바꾸려는 모든 불연속 열이 범주인지 확인해야 합니다. 그렇지 않으면 모듈에서 오류를 반환합니다. 이렇게 하려면 메타데이터 편집 모듈을 사용합니다.
두 번째 열에 부울 데이터가 포함되어 있으면 True-False 값이 숫자로 처리되며, FALSE와 TRUE는 각각 0과 1에 해당합니다.
표준 편차 열의 수식은 모집단 표준 편차를 계산합니다. 따라서 N은 (N - 1) 대신 분모에서 사용됩니다.
두 번째 열에 범주가 아닌 데이터(숫자 또는 부울 값)가 포함된 경우 모듈은 지정된 X 값에 대해 Y의 평균 및 표준 편차를 계산합니다.
즉, 인덱싱된 데이터 세트의 각 행에 대해 다음을 수행합니다
i
.Mean(Y│X)i = Mean(Y│X = Xi)
StdDev(Y│X)i = StdDev(Y│X = Xi)
두 번째 열에 숫자나 부울이 아닌 범주 데이터 또는 값이 포함된 경우 모듈은 지정된 X 값에 대해 Y의 조건부 확률을 계산합니다.
두 번째 열의 모든 부울 값은 숫자 데이터로 처리되며, FALSE와 TRUE는 각각 0과 1에 해당합니다.
불연속 열에 클래스가 있어 두 번째 열에 값이 누락된 행이 있으면 클래스 내의 조건부 확률 합은 1보다 작습니다.
예상 입력
Name | 유형 | 설명 |
---|---|---|
데이터 세트 | 데이터 테이블 | 입력 데이터 세트 |
모듈 매개 변수
Name | 범위 | Type | 기본값 | 설명 |
---|---|---|---|---|
불연속 열 | 모두 | ColumnSelection | 불연속 값이 포함된 열을 선택합니다. | |
대체 열 | 모두 | ColumnSelection | 불연속 값 대신 사용할 데이터가 포함된 열을 선택합니다. |
출력
Name | 유형 | 설명 |
---|---|---|
추가된 데이터 집합 | 데이터 테이블 | 데이터가 바뀐 데이터 집합입니다. |
변환 함수 | ITransform 인터페이스 | 다른 데이터 집합에 적용할 수 있는 변환 함수의 정의입니다. |
예외
예외 | 설명 |
---|---|
오류 0001 | 데이터 집합의 지정된 열 중 하나 이상을 찾을 수 없으면 예외가 발생합니다. |
오류 0003 | 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다. |
오류 0020 | 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다. |
오류 0021 | 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다. |
오류 0017 | 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다. |
오류 0026 | 같은 이름의 열이 허용되지 않으면 예외가 발생합니다. |
오류 0022 | 입력 데이터 집합에서 선택한 열의 수가 필요한 수와 같지 않으면 예외가 발생합니다. |
Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.
API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.