다음을 통해 공유


데이터 세트로 변환

이 문서에서는 Azure Machine Learning 디자이너에서 데이터 세트로 변환 구성 요소를 사용하여 파이프라인의 모든 데이터를 디자이너의 내부 형식으로 변환하는 방법을 설명합니다.

대부분의 경우 변환이 필요하지 않습니다. Azure Machine Learning은 데이터에 대해 작업을 수행할 때 데이터를 네이티브 데이터 세트 형식으로 암시적으로 변환합니다.

데이터 집합에 대해 일종의 정규화 또는 정리를 수행했으며 다른 파이프라인에서 변경 내용을 사용하려는 경우에는 데이터를 데이터 세트 형식으로 저장하는 것이 좋습니다.

참고 항목

데이터 세트로 변환하면 데이터 형식만 변경됩니다. 작업 영역에 데이터의 새 복사본이 저장되지 않습니다. 데이터 세트를 저장하려면 출력 포트를 두 번 클릭하고 데이터 세트로 저장을 선택한 다음 새 이름을 입력합니다.

데이터 세트로 변환을 사용하는 방법

데이터 세트로 변환을 사용하기 전에 메타데이터 편집 구성 요소를 사용하여 데이터 세트를 준비하는 것이 좋습니다. 열 이름을 추가하거나 변경하고, 데이터 형식을 조정하고, 필요에 따라 다른 변경 작업을 수행할 수 있습니다.

  1. 데이터 세트로 변환 구성 요소를 파이프라인에 추가합니다. 이 구성 요소는 디자이너의 데이터 변환 범주에서 찾을 수 있습니다.

  2. 이를 데이터 세트를 출력하는 구성 요소에 연결합니다.

    데이터가 테이블 형식이면 데이터 세트로 변환할 수 있습니다. 여기에는 데이터 가져오기를 통해 로드된 데이터, 수동으로 데이터 입력을 통해 만든 데이터 또는 적용 변환을 통해 변환된 데이터 세트가 포함됩니다.

  3. 작업 드롭다운 목록에서 데이터 세트를 저장하기 전에 데이터를 정리할 것인지 여부를 지정합니다.

    • None: 데이터를 있는 그대로 사용합니다.

    • SetMissingValue: 데이터 세트의 누락된 값으로 특정 값을 설정합니다. 기본 자리 표시자는 물음표(?)이지만 사용자 지정 누락 값 옵션을 사용하여 다른 값을 입력할 수 있습니다. 예를 들어 사용자 지정 누락 값을 위해 Taxi입력하면 데이터 세트의 모든 Taxi 인스턴스가 누락된 값으로 변경됩니다.

    • ReplaceValues: 다른 정확한 값으로 바꿀 단일 정확한 값을 지정하려면 이 옵션을 사용합니다. Replace 메서드를 설정하여 누락된 값 또는 사용자 지정 값을 바꿀 수 있습니다.

      • 누락됨: 입력 데이터 세트에서 누락된 값을 바꾸려면 이 옵션을 선택합니다. 새 값의 경우 누락된 값을 바꿀 값을 입력합니다.
      • 사용자 지정: 입력 데이터 세트의 사용자 지정 값을 바꾸려면 이 옵션을 선택합니다. 사용자 지정 값의 경우 찾으려는 값을 입력합니다. 예를 들어 데이터에 누락된 값에 대한 자리 표시자로 사용되는 obs 문자열이 포함된 경우 obs를 입력합니다. 새 값의 경우 원래 문자열을 바꿀 새 값을 입력합니다.

    ReplaceValues 작업은 정확한 일치에만 적용됩니다. 예를 들어 obs., obsolete 문자열에는 영향을 주지 않습니다.

  4. 파이프라인을 제출합니다.

결과

  • 결과 데이터 세트를 새 이름으로 저장하려면 구성 요소의 오른쪽 패널에 있는 출력 탭에서 데이터 세트 등록 아이콘을 선택합니다.

기술 정보

  • 데이터 세트를 입력값으로 사용하는 구성 요소는 CSV 파일 또는 TSV 파일에서 데이터를 가져올 수도 있습니다. 구성 요소 코드가 실행되기 전에 입력값이 전처리됩니다. 전처리는 입력값에 데이터 세트로 변환 구성 요소를 실행하는 것과 같습니다.

  • SVMLight 형식에서 데이터 세트로 변환할 수 없습니다.

  • 사용자 지정 바꾸기 작업을 지정하는 경우 검색 및 바꾸기 작업이 전체 값에 적용됩니다. 부분 일치는 허용되지 않습니다. 예를 들어 3을 -1 또는 33으로 바꿀 수 있지만 35와 같이 두 자리 숫자로 3을 바꿀 수는 없습니다.

  • 사용자 지정 바꾸기 작업의 경우 열의 현재 데이터 형식을 준수하지 않는 문자를 대체로 사용하면 교체가 자동으로 실패합니다.

다음 단계

Azure Machine Learning에서 사용 가능한 구성 요소 집합을 참조하세요.