메타데이터 편집 구성 요소
이 문서에서는 Azure Machine Learning 디자이너의 구성 요소에 대해 설명합니다.
메타데이터 편집 구성 요소를 사용하여 데이터 세트의 열과 연결된 메타데이터를 변경할 수 있습니다. 메타데이터 편집 구성 요소를 사용한 후에는 데이터 세트의 값과 데이터 형식이 변경됩니다.
일반적인 메타데이터 변경 작업은 다음과 같습니다.
부울 또는 숫자 열을 범주 값으로 처리
클래스 레이블 및 분류하거나 예측할 값이 포함된 열 표시
열을 기능으로 표시
날짜/시간 값을 숫자 값으로 변경하거나 그 반대로 변경
열 이름 바꾸기
일반적으로 다운스트림 구성 요소의 요구 사항을 충족하기 위해 열의 정의를 수정해야 하는 경우 언제든지 메타데이터 편집을 사용합니다. 예를 들어 일부 구성 요소는 특정 데이터 형식에서만 작동하거나 IsFeature
또는 IsCategorical
과 같은 플래그가 열에 있어야 합니다.
필요한 작업을 수행한 후에는 메타데이터를 원래 상태로 다시 설정할 수 있습니다.
메타데이터 편집 구성
Azure Machine Learning 디자이너에서 메타데이터 편집 구성 요소를 파이프라인에 추가하고 업데이트할 데이터 세트를 연결합니다. 구성 요소는 데이터 변환 범주에서 찾을 수 있습니다.
구성 요소의 오른쪽 패널에서 열 편집을 클릭하고 사용할 열 또는 열 집합을 선택합니다. 이름 또는 인덱스로 열을 개별적으로 선택하거나 형식으로 열 그룹을 선택할 수 있습니다.
선택한 열에 다른 데이터 형식을 할당해야 하는 경우 데이터 형식 옵션을 선택합니다. 특정 작업을 위해 데이터 형식을 변경해야 할 수도 있습니다. 예를 들어 원본 데이터 세트에 텍스트로 처리된 숫자가 있는 경우 수학 연산을 사용하기 전에 숫자 데이터 형식으로 변경해야 합니다.
지원되는 데이터 형식은 문자열, 정수, Double, 부울, 날짜/시간입니다.
여러 열을 선택하는 경우 선택한 ‘모든’ 열에 메타데이터 변경 내용을 적용해야 합니다. 예를 들어 두세 개의 숫자 열을 선택한다고 가정해 봅시다. 하나의 작업으로 모두 문자열 데이터 형식으로 변경하고 이름을 바꿀 수 있습니다. 그러나 한 열은 문자열 데이터 형식으로 변경하고 다른 열은 float에서 정수로 변경할 수는 없습니다.
새 데이터 형식을 지정하지 않으면 열 메타데이터가 변경되지 않습니다.
메타데이터 편집 작업을 수행한 후에는 열 형식과 값이 변경됩니다. 메타데이터 편집을 통해 열 데이터 형식을 다시 설정하여 언제든지 원래 데이터 형식을 복구할 수 있습니다.
참고
날짜/시간 형식은 Python 기본 제공 날짜/시간 형식을 따릅니다.
숫자 형식을 날짜/시간 형식으로 변경하는 경우 날짜/시간 형식 필드를 비워 둡니다. 현재 대상 데이터 형식은 지정할 수 없습니다.범주 옵션을 선택하여 선택한 열의 값이 범주로 처리되도록 지정합니다.
예를 들어 숫자 0, 1, 2를 포함하는 열이 있을 수 있지만 실제로는 “흡연자”, “비흡연자”, “알 수 없음”을 의미합니다. 이 경우 열을 범주별로 플래그 지정하여 값을 그룹 데이터에만 사용하고 숫자 계산에 사용하지 않도록 합니다.
Azure Machine Learning에서 해당 데이터를 모델에 사용하는 방식을 변경하려면 필드 옵션을 사용합니다.
기능: 기능 열에서만 작동하는 구성 요소에서 열을 기능으로 플래그 지정하려면 이 옵션을 사용합니다. 기본적으로 모든 열은 초기에 기능으로 처리됩니다.
레이블: 예측 가능한 특성 또는 대상 변수라고도 하는 레이블을 표시하려면 이 옵션을 사용합니다. 많은 구성 요소에서는 데이터 세트에 정확히 하나의 레이블 열이 있어야 합니다.
Azure Machine Learning은 대부분의 경우 열에 클래스 레이블이 포함되어 있음을 유추할 수 있습니다. 이 메타데이터를 설정하여 열이 올바르게 식별되도록 할 수 있습니다. 이 옵션을 설정해도 데이터 값은 변경되지 않습니다. 일부 기계 학습 알고리즘이 데이터를 처리하는 방식만 변경됩니다.
팁
위의 범주에 해당하지 않는 데이터가 있나요? 예를 들어 데이터 세트에 변수로 유용하지 않은 고유 식별자 등의 값이 포함되어 있을 수 있습니다. 모델에서 사용할 때 해당 ID로 인해 문제가 발생하는 경우도 있습니다.
다행히 Azure Machine Learning은 모든 데이터를 유지하므로 데이터 세트에서 관련 열을 삭제할 필요는 없습니다. 몇 개의 특별한 열 집합에서 작업을 수행해야 하는 경우 데이터 세트에서 열 선택 구성 요소를 사용하여 다른 모든 열을 일시적으로 제거하면 됩니다. 나중에 열 추가 구성 요소를 사용하여 열을 데이터 세트에 다시 병합할 수 있습니다.
다음 옵션을 사용하여 이전 선택 항목을 지우고 메타데이터를 기본값으로 복원합니다.
기능 지우기: 기능 플래그를 제거하려면 이 옵션을 사용합니다.
처음에는 모든 열이 기능으로 처리됩니다. 수학 연산을 수행하는 구성 요소의 경우 숫자 열이 변수로 처리되지 않도록 하기 위해 이 옵션을 사용해야 할 수도 있습니다.
레이블 지우기: 지정된 열에서 레이블 메타데이터를 제거하려면 이 옵션을 사용합니다.
점수 지우기: 지정된 열에서 점수 메타데이터를 제거하려면 이 옵션을 사용합니다.
현재 명시적으로 Azure Machine Learning에서 열을 점수로 표시할 수는 없습니다. 그러나 일부 작업을 수행하면 내부적으로 열에 점수 플래그가 지정됩니다. 또한 사용자 지정 R 구성 요소에서 점수 값을 출력할 수도 있습니다.
새 열 이름에 선택한 열의 새 이름을 입력합니다.
열 이름에는 UTF-8 인코딩에서 지원되는 문자만 사용할 수 있습니다. 빈 문자열, Null 또는 공백으로만 구성된 이름은 허용되지 않습니다.
여러 열의 이름을 바꾸려면 열 인덱스 순서대로 이름을 쉼표로 구분된 목록으로 입력합니다.
선택한 모든 열의 이름을 바꾸어야 합니다. 열을 생략하거나 건너뛸 수 없습니다.
파이프라인을 제출합니다.
다음 단계
Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.