필터 기반 기능 선택

이 문서에서는 Azure Machine Learning 디자이너에서 필터 기반 기능 선택 구성 요소를 사용하는 방법을 설명합니다. 이 구성 요소는 입력 데이터 세트에서 예측 능력이 가장 뛰어난 열을 식별하는 데 도움이 됩니다.

일반적으로 ‘기능 선택’은 지정된 출력에서 입력에 통계 테스트를 적용하는 프로세스를 가리킵니다. 목표는 출력 예측 능력이 더 뛰어난 열을 확인하는 것입니다. 필터 기반 기능 선택 구성 요소에서는 선택할 수 있는 여러 기능 선택 알고리즘을 제공합니다. 구성 요소에는 피어슨 상관 관계, 카이 제곱 값과 같은 상관 관계 메서드가 포함되어 있습니다.

필터 기반 기능 선택 구성 요소를 사용하는 경우 데이터 세트를 제공하고 레이블 또는 종속 변수를 포함하는 열을 식별합니다. 그런 다음, 기능 중요도를 측정하는 데 사용할 단일 메서드를 지정합니다.

구성 요소는 예측 능력이 가장 뛰어난 기능 열이 포함된 데이터 세트를 출력합니다. 또한 선택한 메트릭의 기능 이름과 해당 점수를 출력합니다.

필터 기반 기능 선택이란?

선택한 메트릭을 사용하여 관련 없는 특성을 찾기 때문에 기능 선택 구성 요소를 “필터 기반”이라고 합니다. 그런 다음, 모델에서 중복 열을 필터링합니다. 데이터에 적합한 단일 통계 측정값을 선택하면 구성 요소에서 각 기능 열의 점수가 계산됩니다. 열은 기능 점수를 기준으로 반환됩니다.

적절한 기능을 선택하면 분류 정확도와 효율성을 개선할 수 있습니다.

일반적으로 가장 높은 점수의 열만 예측 모델을 작성하는 데 사용합니다. 기능 선택 점수가 낮은 열은 데이터 세트에 남겨지고 모델을 작성할 때 무시될 수 있습니다.

기능 선택 메트릭을 선택하는 방법

필터 기반 기능 선택 구성 요소는 각 열의 정보 값을 평가하기 위한 다양한 메트릭을 제공합니다. 이 섹션에서는 각 메트릭에 대한 일반적인 설명과 적용 방법을 제공합니다. 기술 정보 및 각 구성 요소의 구성 지침에서 각 메트릭을 사용하기 위한 추가 요구 사항을 확인할 수 있습니다.

  • 피어슨 상관 관계

    피어슨 상관 관계 통계 또는 피어슨 상관 계수를 통계 모델에서 r 값이라고도 합니다. 이 방법에서는 임의의 두 변수에 대해 상관 관계의 강도를 나타내는 값이 반환됩니다.

    두 변수의 공 분산을 구한 다음 표준 편차의 곱으로 나누는 방식으로 피어슨 상관 계수를 계산합니다. 두 변수의 배율이 변경되어도 계수에는 영향을 주지 않습니다.

  • 카이 제곱

    양방향 카이 제곱 테스트는 예상 값이 실제 결과와 얼마나 비슷한지를 측정하는 통계 방법입니다. 이 방법에서는 변수가 임의로 선택되며, 적절한 독립 변수 샘플에서 도출한다고 가정합니다. 결과적으로 생기는 카이 제곱 통계는 결과와 예상(임의) 결과가 얼마나 다른지를 나타냅니다.

사용자 지정 기능 선택 방법으로 다른 옵션이 필요한 경우 R 스크립트 실행 구성 요소를 사용합니다.

필터 기반 기능 선택을 구성하는 방법

표준 통계 메트릭을 선택합니다. 이 구성 요소는 열 쌍(레이블 열과 기능 열) 간의 상관 관계를 계산합니다.

  1. 파이프라인에 필터 기반 기능 선택 구성 요소를 추가합니다. 이 모듈은 디자이너의 기능 선택 범주에서 찾을 수 있습니다.

  2. 잠재적 기능에 해당하는 두 개 이상의 열이 포함된 입력 데이터 세트를 연결합니다.

    열을 분석하고 기능 점수가 생성되도록 하려면 메타데이터 편집 구성 요소를 사용하여 IsFeature 특성을 설정합니다.

    중요

    입력으로 제공하는 열이 잠재적 기능인지 확인합니다. 예를 들어 단일 값을 포함하는 열에는 정보 값이 없습니다.

    일부 열이 잘못된 기능을 수행하는 것을 알고 있다면 열 선택에서 해당 열을 제거할 수 있습니다. 메타데이터 편집 구성 요소를 사용하여 범주로 플래그를 지정할 수도 있습니다.

  3. 기능 점수 매기기 방법에서 다음과 같은 설정된 통계 방법 중 하나를 점수 계산에 사용하도록 선택합니다.

    방법 요구 사항
    피어슨 상관 관계 레이블은 텍스트 또는 숫자일 수 있습니다. 기능은 숫자여야 합니다.
    카이 제곱 레이블과 기능이 텍스트 또는 숫자일 수 있습니다. 두 범주 열의 기능 중요도를 계산하려면 이 방법을 사용합니다.

    선택한 메트릭을 변경하면 다른 모든 선택 항목이 다시 설정됩니다. 따라서 이 옵션을 먼저 설정해야 합니다.

  4. 기능 열에만 적용 옵션을 선택하여 이전에 기능으로 표시된 열에 대해서만 점수를 생성합니다.

    이 옵션의 선택을 취소하면 구성 요소는 원하는 기능 수에 지정된 열 수까지 조건을 충족하는 모든 열의 점수를 만듭니다.

  5. 대상 열에서 열 선택기 시작을 선택하여 이름 또는 인덱스로 레이블 열을 선택합니다. 인덱스는 1부터 시작됩니다.
    통계 상관 관계와 관련된 모든 메서드에는 레이블 열이 필요합니다. 레이블 열을 선택하지 않거나 여러 레이블 열을 선택하면 구성 요소에서 디자인 타임 오류가 반환됩니다.

  6. 원하는 기능 수에 결과로 반환할 기능 열 수를 입력합니다.

    • 지정할 수 있는 최소 기능 수는 1개이지만 이 값을 늘리는 것이 좋습니다.

    • 원하는 기능의 수를 데이터 집합의 열 수보다 더 많이 지정하면 모든 기능이 반환됩니다. 점수가 0인 기능도 반환됩니다.

    • 기능 열 수보다 적은 결과 열을 지정하면 점수의 내림차순으로 기능 순위가 지정됩니다. 상위 기능만 반환됩니다.

  7. 파이프라인을 제출합니다.

중요

유추에서 필터 기반 기능 선택을 사용하려는 경우 열 변환 선택을 사용하여 기능 선택 결과를 저장하고 변환 적용을 사용하여 기능 선택 변환을 점수 매기기 데이터 세트에 적용해야 합니다.

점수 매기기 프로세스에서 열 선택이 동일하도록 하려면 다음 스크린샷을 참조하여 파이프라인을 빌드합니다.

샘플 파이프라인

결과

처리가 완료된 후:

  • 분석된 기능 열과 해당 점수의 전체 목록을 보려면 구성 요소를 마우스 오른쪽 단추로 클릭하고 시각화를 선택합니다.

  • 기능 선택 조건에 따라 데이터 세트를 보려면 구성 요소를 마우스 오른쪽 단추로 클릭하고 시각화를 선택합니다.

데이터 세트에 예상보다 많은 열이 포함되어 있는 경우 구성 요소 설정을 확인합니다. 입력으로 제공되는 열의 데이터 형식도 확인합니다. 예를 들어 원하는 기능 수를 1개로 설정한 경우 출력 데이터 세트에는 레이블 열과 가장 높은 순위의 기능 열인 두 개의 열만 포함됩니다.

기술 정보

구현 세부 정보

숫자 기능 및 범주 레이블에서 피어슨 상관 관계를 사용하는 경우 기능 점수는 다음과 같이 계산됩니다.

  1. 범주 열의 각 수준에서 숫자 열의 조건부 평균을 컴퓨팅합니다.

  2. 조건부 평균 열과 숫자 열의 상관 관계를 지정합니다.

요구 사항

  • 레이블 또는 점수 열로 지정된 열에 대해서는 기능 선택 점수를 생성할 수 없습니다.

  • 점수 매기기 방법이 지원하지 않는 데이터 형식의 열에 이 방법을 사용하려고 하면 구성 요소에서 오류가 발생합니다. 또는 점수 0이 열에 할당됩니다.

  • 열에 논리(true/false) 값이 포함된 경우 True = 1False = 0으로 처리됩니다.

  • 열이 레이블 또는 점수로 지정된 경우에는 기능이 될 수 없습니다.

누락 값 처리 방법

  • 모든 값이 누락된 열은 대상(레이블) 열로 지정할 수 없습니다.

  • 열에 누락 값이 있는 경우 구성 요소에서 열의 점수를 컴퓨팅할 때 해당 값은 무시됩니다.

  • 기능 열로 지정된 열에서 모든 값이 누락된 경우에는 구성 요소에서 점수 0을 할당합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.