표시기 값으로 변환

이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.

Azure Machine Learning 디자이너의 표시기 값으로 변환 구성 요소를 사용하여 범주 값을 포함하는 열을 일련의 이진 표시기 열로 변환할 수 있습니다.

표시기 값으로 변환 작업을 사용하면 범주 데이터를 이진 또는 여러 값으로 표시되는 표시기 값으로 변환할 수 있습니다. 이 프로세스는 분류 모델에 자주 사용되는 데이터 전처리 단계 중 하나입니다.

이 구성 요소는 또한 표시기 값으로 변환하는 데 사용되는 변환의 정의도 출력합니다. 변환 적용 구성 요소를 사용하여 동일한 스키마를 가진 다른 데이터 세트에서 이 변환을 재사용할 수 있습니다.

표시기 값으로 변환을 구성하는 방법

  1. 표시기 값으로 변환을 찾아 파이프라인 초안으로 끌어옵니다. 이 구성 요소는 데이터 변환 범주에서 찾을 수 있습니다.

    참고 항목

    표시기 값으로 변환 구성 요소 이전에 메타데이터 편집 구성 요소를 사용하여 대상 열을 범주로 표시할 수 있습니다.

  2. 변환하려는 열이 포함된 데이터 세트에 표시기 값으로 변환 구성 요소를 연결합니다.

  3. 열 편집을 선택하여 하나 이상의 범주 열을 선택합니다.

  4. 새 부울 열 출력하려면 범주 열 덮어쓰기 옵션을 선택합니다. 이 옵션은 기본적으로 해제되어 있습니다.

    덮어쓰기 옵션을 선택하는 경우 원본 열이 실제로 삭제되거나 수정되지는 않습니다. 대신 새 열이 생성되어 출력 데이터 세트에 표시되고 원본 열이 작업 영역에서 다시 사용할 수 기본. 원본 데이터를 확인해야 하는 경우 언제든지 열 추가 구성 요소를 사용하여 원본 열을 다시 추가할 수 있습니다.

  5. 파이프라인을 제출합니다.

결과

서버에 실패 확률이 높거나 중간 또는 낮은지 여부를 나타내는 점수가 있는 열이 있다고 가정합니다.

서버 ID 실패 점수
10301 낮음
10302 중간
10303 높음

표시기 값으로 변환을 적용하면 디자이너는 레이블의 단일 열을 부울 값이 포함된 여러 열로 변환합니다.

서버 ID 실패 점수 - 낮음 실패 점수 - 보통 실패 점수 - 높음
10301 1 0 0
10302 0 1 0
10303 0 0 1

변환은 다음과 같이 작동합니다.

  • 위험을 설명하는 실패 점수 열에는 세 가지 가능한 값(높음, 중간 및 낮음)만 있으며 누락된 값은 없습니다. 따라서 정확히 세 개의 새 열이 만들어집니다.

  • 새 표시기 열의 이름은 원본 열의 열 머리글 및 값을 기반으로 하며, 원본 열>- <데이터 값> 패턴을 <사용합니다.

  • 각 서버는 하나의 위험 등급만 가질 수 있으므로 정확히 하나의 표시기 열에는 1, 다른 모든 지표 열에는 0이 있어야 합니다.

이제 3개의 표시기 열을 기계 학습 모델의 기능으로 사용할 수 있습니다.

구성 요소는 다음 두 개의 출력을 반환합니다.

  • 결과 데이터 세트: 변환된 표시기 값 열이 있는 데이터 세트. 정리되도록 선택하지 않은 열도 “전달”됩니다.
  • 표시기 값 변환: 표시기 값으로 변환하는 데 사용되는 데이터 변환으로 작업 영역에 저장하여 나중에 새 데이터에 적용할 수 있습니다.

저장된 표시기 값 작업을 새 데이터에 적용

표시기 값 작업을 자주 반복해야 하는 경우 데이터 조작 단계를 ‘변환’으로 저장하여 동일한 데이터 세트를 사용하여 다시 사용할 수 있습니다. 이는 스키마가 동일한 데이터를 자주 다시 설치한 다음 클린 경우에 유용합니다.

  1. 변환 적용 구성 요소를 파이프라인에 추가합니다.

  2. 정리할 데이터 세트를 추가하고 오른쪽 입력 포트에 데이터 세트를 연결합니다.

  3. 디자이너의 왼쪽 창에 있는 데이터 변환 그룹을 확장합니다. 저장된 변환을 찾아 파이프라인으로 끌어옵니다.

  4. 변형 적용의 왼쪽 입력 포트에 저장된 변환을 연결합니다.

    저장된 변환을 적용하는 경우 변환할 열을 선택할 수 없습니다. 변환이 정의되어 원래 작업에 지정된 데이터 형식에 자동으로 적용되기 때문입니다.

  5. 파이프라인을 제출합니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

사용 팁

  • 범주로 표시된 열만 표시기 열로 변환할 수 있습니다. 다음 오류가 표시되는 경우 선택한 열 중 하나가 범주가 아닐 수 있습니다.

    오류 0056: 이름이 <열 이름>인 열이 허용되는 범주에 없습니다.

    기본적으로 대부분의 문자열 열은 문자열 기능으로 처리되므로 메타데이터 편집을 사용하여 범주로 명시적으로 표시해야 합니다.

  • 표시기 열로 변환할 수 있는 열 수에는 제한이 없습니다. 그러나 값의 각 열이 여러 표시기 열을 생성할 수 있으므로 한 번에 몇 개의 열만 변환하고 검토할 수 있습니다.

  • 열에 누락된 값이 포함된 경우 누락된 범주에 대한 별도의 표시기 열이 생성되며 이 이름은 <원본 열>- Missing입니다.

  • 표시기 값으로 변환하는 열에 숫자가 포함된 경우 다른 기능 열과 마찬가지로 범주로 표시되어야 합니다. 이렇게 하면 숫자가 불연속 값으로 처리됩니다. 예를 들어 25~30 사이의 MPG 값이 있는 숫자 열이 있는 경우 각 불연속 값에 대해 새 표시기 열이 생성됩니다.

    Make 고속도로 mpg - 25 고속도로 mpg -26 고속도로 mpg -27 고속도로 mpg - 28 고속도로 mpg - 29 고속도로 mpg -30
    Contoso 자동차 0 0 0 0 0 1
  • 데이터 세트에 너무 많은 차원을 추가하지 않도록 합니다. 먼저 열의 값 수를 검사 데이터를 적절하게 bin 또는 정량화하는 것이 좋습니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.