다음을 통해 공유


불연속 값 바꾸기

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

다른 열을 기준으로 열의 불연속 값을 숫자 값으로 바꾸기

범주: 통계 함수

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 불연속 값 바꾸기 모듈을 사용하여 불연속 값을 나타내는 데 사용할 수 있는 확률 점수를 생성하는 방법을 설명합니다. 이 점수는 불연속 값의 정보 값을 이해하는 데 유용할 수 있습니다.

작동 방법:

불연속(또는 범주) 값이 포함된 열을 선택한 다음 참조에 사용할 다른 열을 선택합니다.

두 번째 열이 범주 열인지 범주가 아닌지에 따라 모듈은 다음 값 중 하나를 계산합니다.

  • 첫 번째 열의 값이 지정된 두 번째 열의 조건부 확률 입니다.
  • 첫 번째 열의 각 값 그룹에 대한 평균표준 편차 입니다.

이 모듈은 점수가 있는 데이터 세트와 다른 데이터 세트에 저장하고 적용할 수 있는 함수를 모두 출력합니다.

불연속 값 바꾸기를 구성하는 방법

한 번에 한 쌍의 열만 사용하는 것이 좋습니다. 분석할 여러 열을 선택하는 경우 모듈에서 오류가 발생하지 않습니다. 그러나 실제로 여러 열을 선택하는 경우 선택 순서가 아니라 내부 추론과 일치합니다.

따라서 매번 한 쌍의 열을 선택하는 것이 좋습니다. 하나는 불연속 열 에 대해, 다른 하나는 대체 열에 대해 선택합니다.

여러 열에 대한 점수를 생성해야 하는 경우 별개의 값 바꾸기 인스턴스를 사용합니다.

  1. 연속 값 바꾸기 모듈을 실험에 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 실험 항목 목록에서 통계 함수 그룹에서 찾을 수 있습니다.

  2. 범주 데이터의 열이 하나 이상 포함된 데이터 세트를 커넥트.

  3. 불연속 열: 열 시작 선택기를 클릭하여 불연속(또는 범주) 값이 포함된 열을 선택합니다.

    선택한 불연속 열은 범주여야 합니다. 오류가 발생하면 메타데이터 편집 모듈을 사용하여 열 형식을 변경합니다.

  4. 대체 열: 열 선택기 시작을 클릭하여 대체 점수를 계산하는 데 사용할 값이 포함된 열을 선택합니다.

    불연속 열에 대해 여러 열을 선택하는 경우 같은 수의 대체 열을 선택해야 합니다.

  5. 실험을 실행합니다.

    참고

    적용할 통계 함수는 선택할 수 없습니다. 모듈은 대체 열에 대해 선택한 열의 데이터 형식에 따라 적절한 측정값을 계산합니다.

결과

모듈은 각 열 쌍에 대해 다음 값 중 하나를 계산합니다.

  • 두 번째 열에 범주 값이 포함된 경우 모듈은 첫 번째 열의 값을 고려하여 두 번째 열의 조건부 확률 을 계산합니다.

    예를 들어 인구 조사 데이터 세트에서 불연속 열로 선택하고 occupation 대체 열로 선택 gender 해야 합니다. 모듈의 출력은 다음과 같습니다.

    P(gender | occupation)

  • 두 번째 열에 숫자로 변환할 수 있는 범주가 아닌 값(예: 범주로 표시되지 않은 숫자 또는 부울 값)이 포함된 경우 모듈은 첫 번째 열의 각 값 그룹에 대한 평균표준 편차 를 출력합니다.

    예를 들어 불연속 열로 사용하고 occupation 다른 열은 숫자 열hours-per-week이라고 가정합니다. 모듈은 다음과 같은 새 값을 출력합니다.

    Mean(hours-per-week | occupation)

    Std-Dev(hours-per-week | occupation)

확률 점수 외에도 모듈은 변환된 데이터 세트를 출력합니다. 이 데이터 세트에서 대체 열 로 선택한 열은 계산된 점수를 포함하는 열로 바뀝니다.

원본 데이터 세트의 열은 작업에 의해 실제로 변경되거나 삭제되지 않습니다. 점수 열은 원본 데이터 대신 모듈 및 출력에서 생성된 새 열입니다.

확률 점수와 함께 원본 값을 보려면 열 추가 모듈을 사용합니다.

불연속 값 바꾸기의 사용법은 몇 가지 간단한 예제에서 확인할 수 있습니다.

예제 1 - 범주 값을 확률 점수로 바꾸기

아래 표에는 범주 열 X와 열 Y가 포함되어 있습니다. Y 열에는 범주 값으로 처리되는 True/False 값이 들어 있습니다. 불연속 값 바꾸기를 사용하는 경우 세 번째 열에 표시된 것처럼 X가 지정된 Y의 확률에 대한 조건부 확률 점수를 계산합니다.

X Y P(Y|X)
파랑 0 P(Y=0|X=Blue) = 0.5
파랑 1 P(Y=1|X=Blue) = 0.5
녹색 0 P(Y=0|X=Green) = 2/3
녹색 0 P(Y=0|X=Green) = 2/3
녹색 1 P(Y=1|X=Green) = 1/3
빨강 0 P(Y=0|X=Red) = .75
빨강 0 P(Y=0|X=Red) = .75
빨간색 1 P(Y=1|X=Red) = .25
빨강 0 P(Y=0|X=Red) = .75

예제 2 - 범주가 아닌 열을 기반으로 평균 및 표준 편차 계산

두 번째 열이 숫자인 경우 불 연속 값 바꾸기 는 조건부 확률 점수 대신 평균 및 표준 편차를 계산합니다.

다음 예제는 다음과 같이 간소화된 자동 가격 샘플 데이터 세트를 기반으로 합니다.

  • 열의 작은 하위 집합이 선택되었습니다.

  • 파티션 및 샘플 모듈의 헤드 옵션을 사용하여 상위 30개 행만 추출되었습니다.

  • 불연속 값 바꾸기 모듈은 차량 연석 가중치의 평균표준 편차를 계산하는 데 사용되었습니다. 범주 열을 num-of-doors지정합니다.

다음 표에서는 결과를 보여 줍니다.

본문 도어 수 정비 중량 평균(정비 중량|도어 수) 표준 편차(정비 중량|도어 수)
std two 2548 2429.785714 507.45699
std 4 2337 2625.6 493.409877
std two 2507 2429.785714 507.45699
turbo 4 3086 2625.6 5 493.409877
std 4 1989 2625.6 493.409877
turbo 2191
std 4 2535 2625.6 493.409877

Excel 함수를 사용하여 각 값 그룹에 대한 평균을 AVERAGEIF 확인할 수 있습니다.

예제 3 - 누락된 값 처리

이 예제에서는 조건부 확률 점수를 계산할 때 누락 값(null)이 결과에 전파되는 방법을 보여 줍니다.

  • 불연속 값 열과 계산 조회 열에 누락 값이 있으면 새 열에 누락 값이 전파됩니다.

  • 불연속 값 열에 누락 값만 포함되어 있으면 모듈이 열을 처리할 수 없으며 오류 메시지가 표시됩니다.

X Y P(Y|X)
1 True P(Y=true|X=1) = 1/2
1 False P(Y=false|X=1) = 1/2
2 True P(Y=true|X=2) = 1/3
2 False P(Y=false|X=2) = 1/3
2 Null P(Y=null|X=2) = null

기술 정보

  • 바꾸려는 모든 불연속 열이 범주인지 확인해야 합니다. 그렇지 않으면 모듈에서 오류를 반환합니다. 이렇게 하려면 메타데이터 편집 모듈을 사용합니다.

  • 두 번째 열에 부울 데이터가 포함되어 있으면 True-False 값이 숫자로 처리되며, FALSE와 TRUE는 각각 0과 1에 해당합니다.

  • 표준 편차 열의 수식은 모집단 표준 편차를 계산합니다. 따라서 N은 (N - 1) 대신 분모에서 사용됩니다.

  • 두 번째 열에 범주가 아닌 데이터(숫자 또는 부울 값)가 포함된 경우 모듈은 지정된 X 값에 대해 Y의 평균 및 표준 편차를 계산합니다.

    즉, 인덱싱된 데이터 세트의 각 행에 대해 다음을 수행합니다 i.

    Mean(Y│X)i = Mean(Y│X = Xi)

    StdDev(Y│X)i = StdDev(Y│X = Xi)

  • 두 번째 열에 숫자나 부울이 아닌 범주 데이터 또는 값이 포함된 경우 모듈은 지정된 X 값에 대해 Y의 조건부 확률을 계산합니다.

  • 두 번째 열의 모든 부울 값은 숫자 데이터로 처리되며, FALSE와 TRUE는 각각 0과 1에 해당합니다.

  • 불연속 열에 클래스가 있어 두 번째 열에 값이 누락된 행이 있으면 클래스 내의 조건부 확률 합은 1보다 작습니다.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name 범위 Type 기본값 설명
불연속 열 모두 ColumnSelection 불연속 값이 포함된 열을 선택합니다.
대체 열 모두 ColumnSelection 불연속 값 대신 사용할 데이터가 포함된 열을 선택합니다.

출력

Name 유형 설명
추가된 데이터 집합 데이터 테이블 데이터가 바뀐 데이터 집합입니다.
변환 함수 ITransform 인터페이스 다른 데이터 집합에 적용할 수 있는 변환 함수의 정의입니다.

예외

예외 설명
오류 0001 데이터 집합의 지정된 열 중 하나 이상을 찾을 수 없으면 예외가 발생합니다.
오류 0003 하나 이상의 입력이 null이거나 비어 있으면 예외가 발생합니다.
오류 0020 모듈로 전달된 데이터 집합 중 일부의 열 수가 너무 적으면 예외가 발생합니다.
오류 0021 모듈로 전달된 데이터 집합 중 일부의 행 수가 너무 적으면 예외가 발생합니다.
오류 0017 하나 이상의 지정된 열에 현재 모듈에서 지원되지 않는 유형이 있으면 예외가 발생합니다.
오류 0026 같은 이름의 열이 허용되지 않으면 예외가 발생합니다.
오류 0022 입력 데이터 집합에서 선택한 열의 수가 필요한 수와 같지 않으면 예외가 발생합니다.

Studio(클래식) 모듈과 관련된 오류 목록은 Machine Learning 오류 코드를 참조하세요.

API 예외 목록은 Machine Learning REST API 오류 코드를 참조하세요.

참고 항목

통계 함수