다음을 통해 공유


데이터 세트로 변환

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

데이터 입력을 Microsoft Machine Learning 사용되는 내부 데이터 세트 형식으로 변환합니다.

범주: 데이터 형식 변환

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 데이터 세트로 변환 모듈을 사용하여 실험에 필요한 모든 데이터를 Studio(클래식)에서 사용하는 내부 형식으로 변환하는 방법을 설명합니다.

대부분의 경우 변환은 필요하지 않습니다. Machine Learning 데이터에 대해 작업을 수행할 때 데이터를 네이티브 데이터 세트 형식으로 암시적으로 변환하기 때문입니다.

그러나 데이터 집합에 대해 일종의 정규화 또는 정리를 수행했으며 이후 실험에서 변경 내용을 사용하려는 경우에는 데이터를 데이터 집합 형식으로 저장하는 것이 좋습니다.

참고

데이터 집합으로 변환을 수행해도 데이터 형식만 변경되며 작업 영역에 데이터의 새 복사본이 저장되지는 않습니다. 데이터 세트를 저장하려면 출력 포트를 두 번 클릭하고 데이터 세트로 저장을 선택한 다음 새 이름을 입력합니다.

데이터 세트로 변환 사용 방법

데이터 세트로 변환을 사용하기 전에 메타데이터 편집 모듈을 사용하여 데이터 세트를 준비하는 것이 좋습니다. 열 이름을 추가하거나 변경하고 데이터 형식을 조정하는 등의 작업을 수행할 수 있습니다.

  1. 데이터 세트로 변환 모듈을 실험에 추가합니다. 이 모듈은 Machine Learning Studio(클래식)의 데이터 형식 변환 범주에서 찾을 수 있습니다.

  2. 이를 데이터 세트를 출력하는 모듈에 연결합니다.

    데이터가 테이블 형식이면 데이터 세트로 변환할 수 있습니다. 여기에는 데이터 가져오기를 사용하여 로드된 데이터, 수동으로 Enter Data를 사용하여 만든 데이터, 사용자 지정 모듈의 코드에 의해 생성된 데이터, 변환 적용을 사용하여 변환된 데이터 세트 또는 SQL 적용을 사용하여 생성되거나 수정된 데이터 세트가 포함됩니다.

  3. 작업 드롭다운 목록에서 데이터 세트를 저장하기 전에 데이터를 정리할지 여부를 나타냅니다.

    • None: 데이터를 있는 그대로 사용합니다.

    • SetMissingValue: 누락된 값이 있는 경우 데이터 세트에 삽입되는 자리 표시자를 지정합니다. 기본 자리 표시자는 물음표 문자(?)이지만 사용자 지정 누락 값 옵션을 사용하여 다른 값을 입력할 수 있습니다.

    • ReplaceValues:이 옵션을 사용하여 다른 정확한 값으로 변경할 하나의 정확한 값을 지정합니다. 예를 들어 데이터에 누락된 값에 대한 자리 표시자로 사용되는 문자열 obs 이 포함되어 있다고 가정하면 다음 옵션을 사용하여 사용자 지정 대체 작업을 지정할 수 있습니다.

      1. 사용자 지정으로 바꾸기 설정

      2. 사용자 지정 값의 경우 찾으려는 값을 입력합니다. 이 경우 .를 입력 obs합니다.

      3. 새 값의 경우 원래 문자열을 바꿀 새 값을 입력합니다. 이 경우 입력할 수 있습니다. ?

    ReplaceValues 작업은 정확히 일치하는 값에만 적용됩니다. 예를 들어 obs., obsolete 문자열에는 영향을 주지 않습니다.

    • SparseOutput: 데이터 세트가 스파스임을 나타냅니다. 스파스 데이터 벡터를 만들면 누락된 값이 스파스 데이터 분포에 영향을 미치지 않도록 할 수 있습니다. 이 옵션을 선택한 후에는 누락된 값과 0 값을 처리하는 방법을 지정해야 합니다.

    0 이외의 값을 제거하려면 제거 옵션을 클릭하고 제거할 단일 값을 입력합니다. 누락된 값을 제거하거나 벡터에서 삭제할 사용자 지정 값을 설정할 수 있습니다. 정확한 일치 항목만 제거됩니다. 예를 들어 값 제거 텍스트 상자에 입력 x 하면 행 xx 에 영향을 미치지 않습니다.

    기본적으로 0 제거 옵션은 스파스 열을 만들 때 모든 0 값이 제거된다는 의미로 설정 True됩니다.

  4. 실험을 실행하거나 데이터 세트로 변환 모듈을 마우스 오른쪽 단추로 클릭하고 선택한 실행을 선택합니다.

결과

  • 결과 데이터 세트를 새 이름으로 저장하려면 데이터 세트로 변환의 출력을 마우스 오른쪽 단추로 클릭하고 데이터 세트로 저장을 선택합니다.

Azure AI 갤러리에서 데이터 세트로 변환 모듈을 사용하는 방법의 예를 볼 수 있습니다.

  • CRM 샘플: 공유 데이터 세트에서 읽고 로컬 작업 영역에 데이터 세트의 복사본을 저장합니다.

  • 비행 지연 예제: 누락된 값을 바꿔 정리된 데이터 세트를 저장하여 향후 실험에 사용할 수 있습니다.

기술 정보

이 섹션에는 구현 세부 정보, 팁, 자주 묻는 질문에 대한 답변이 포함되어 있습니다.

  • 데이터 집합을 입력으로 사용하는 모듈은 CSV, TSV 또는 ARFF 형식의 데이터도 사용할 수 있습니다. 모듈 코드를 실행하기 전에 입력 전처리가 수행됩니다. 이 작업은 입력에 대해 데이터 집합으로 변환 모듈을 실행하는 것과 같습니다.

  • SVMLight 형식에서 데이터 집합으로 변환할 수는 없습니다.

  • 사용자 지정 바꾸기 작업을 지정할 때는 검색 및 바꾸기 작업이 전체 값에만 적용되며 부분 일치는 허용되지 않습니다. 예를 들어 3을 -1 또는 33으로 바꿀 수는 있지만 35 등의 두 자리 숫자로 바꿀 수는 없습니다.

  • 사용자 지정 바꾸기 작업에서는 열의 현재 데이터 형식을 따르지 않는 문자를 대체 값으로 사용하면 대체가 자동으로 실패합니다.

  • 스파스이고 누락된 값이 있는 숫자 데이터를 사용하는 데이터를 저장해야 하는 경우 내부적으로 Studio(클래식)는 Math.NET 숫자 라이브러리의 클래스인 SparseVector를 사용하여 스파스 배열을 지원합니다. 0을 사용하고 값이 누락된 데이터를 준비한 다음 SparseOutputRemove Zeros = TRUE 인수를 사용하여 데이터 세트로 변환을 사용합니다.

예상 입력

Name 유형 설명
데이터 세트 데이터 테이블 입력 데이터 세트

모듈 매개 변수

Name 범위 Type 기본값 설명
작업 목록 작업 방법 없음 입력 데이터 집합에 적용할 작업입니다.

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 출력 데이터 세트

참고 항목

데이터 형식 변환
전체 모듈 목록