데이터 세트로 변환

이 문서에서는 Azure Machine Learning 디자이너에서 데이터 세트로 변환 구성 요소를 사용하여 파이프라인의 모든 데이터를 디자이너의 내부 형식으로 변환하는 방법을 설명합니다.

대부분의 경우에는 변환이 필요하지 않습니다. Azure Machine Learning은 데이터에 대해 작업을 수행할 때 데이터를 암시적으로 기본 데이터 세트 형식으로 변환합니다.

데이터 집합에 대해 일종의 정규화 또는 정리를 수행했으며 다른 파이프라인에서 변경 내용을 사용하려는 경우에는 데이터를 데이터 세트 형식으로 저장하는 것이 좋습니다.

참고

데이터 세트로 변환하면 데이터 형식만 변경됩니다. 작업 영역에 데이터의 새 복사본이 저장되지 않습니다. 데이터 세트를 저장하려면 출력 포트를 두 번 클릭하고 데이터 세트로 저장을 선택한 다음 새 이름을 입력합니다.

데이터 세트로 변환 사용 방법

데이터 세트로 변환을 사용하기 전에 메타데이터 편집 구성 요소를 사용하여 데이터 세트를 준비하는 것이 좋습니다. 열 이름을 추가하거나 변경하고, 데이터 형식을 조정하고, 필요에 따라 다른 변경 작업을 수행할 수 있습니다.

  1. 데이터 세트로 변환 구성 요소를 파이프라인에 추가합니다. 이 구성 요소는 디자이너의 데이터 변환 범주에서 찾을 수 있습니다.

  2. 이를 데이터 세트를 출력하는 구성 요소에 연결합니다.

    데이터가 테이블 형식이면 데이터 세트로 변환할 수 있습니다. 여기에는 데이터 가져오기를 통해 로드된 데이터, 수동으로 데이터 입력을 통해 생성된 데이터 또는 변환 적용을 통해 변환된 데이터 세트가 포함됩니다.

  3. 작업 드롭다운 목록에서 데이터 세트를 저장하기 전에 데이터를 정리할 것인지 여부를 지정합니다.

    • None: 데이터를 있는 그대로 사용합니다.

    • SetMissingValue: 특정 값을 데이터 세트에서 누락된 값으로 설정합니다. 기본 자리 표시자는 물음표(?)이지만 사용자 지정 누락 값 옵션을 사용하여 다른 값을 입력할 수 있습니다. 예를 들어 사용자 지정 누락 값Taxi를 입력하면 데이터 세트에 있는 Taxi의 모든 인스턴스가 누락된 값으로 변경됩니다.

    • ReplaceValues:이 옵션을 사용하여 다른 정확한 값으로 변경할 하나의 정확한 값을 지정합니다. Replace 메서드를 설정하여 누락 값 또는 사용자 지정 값을 변경할 수 있습니다.

      • Missing: 입력 데이터 세트에서 누락 값을 변경하려면 이 옵션을 선택합니다. New Value에는 누락된 값을 대체할 값을 입력합니다.
      • Custom: 입력 데이터 세트에서 사용자 지정 값을 바꾸려면 이 옵션을 선택합니다. Custom Value에는 찾으려는 값을 입력합니다. 예를 들어 데이터에 누락된 값에 대한 자리 표시자로 사용되는 obs 문자열이 포함된 경우 obs를 입력합니다. New value에는 원래 문자열을 대체하려는 새 값을 입력합니다.

    ReplaceValues 작업은 정확히 일치하는 값에만 적용됩니다. 예를 들어 obs., obsolete 문자열에는 영향을 주지 않습니다.

  4. 파이프라인을 제출합니다.

결과

  • 결과 데이터 세트를 새 이름으로 저장하려면 구성 요소의 오른쪽 패널에 있는 출력 탭에서 데이터 세트 등록 아이콘을 선택합니다.

기술 정보

  • 데이터 세트를 입력값으로 사용하는 구성 요소는 CSV 파일 또는 TSV 파일에서 데이터를 가져올 수도 있습니다. 구성 요소 코드가 실행되기 전에 입력값이 전처리됩니다. 전처리는 입력값에 데이터 세트로 변환 구성 요소를 실행하는 것과 같습니다.

  • SVMLight 형식에서 데이터 세트로 변환할 수 없습니다.

  • 사용자 지정 바꾸기 작업을 지정할 때는 검색 및 바꾸기 작업이 전체 값에만 적용됩니다. 부분 일치는 허용되지 않습니다. 예를 들어 3을 -1 또는 33으로 바꿀 수는 있지만 35와 같은 두 자리 숫자에서 숫자 3만을 바꿀 수는 없습니다.

  • 사용자 지정 바꾸기 작업에서는 열의 현재 데이터 형식을 따르지 않는 문자를 대체 값으로 사용하면 대체가 자동으로 실패합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.