CSV로 변환

중요

Machine Learning Studio(클래식)에 대한 지원은 2024년 8월 31일에 종료됩니다. 해당 날짜까지 Azure Machine Learning으로 전환하는 것이 좋습니다.

2021년 12월 1일부터 새로운 Machine Learning Studio(클래식) 리소스를 만들 수 없습니다. 2024년 8월 31일까지는 기존 Machine Learning Studio(클래식) 리소스를 계속 사용할 수 있습니다.

ML Studio(클래식) 설명서는 사용 중지되며 나중에 업데이트되지 않을 수 있습니다.

쉼표로 구분된 값 형식으로 데이터 입력 변환

범주: 데이터 형식 변환

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)에서 CSV로 변환 모듈을 사용하여 Azure ML 데이터 세트를 R 또는 Python 스크립트 모듈과 다운로드, 내보내기 또는 공유할 수 있는 CSV 형식으로 변환하는 방법을 설명합니다.

CSV 형식에 대한 자세한 정보

‘쉼표로 구분된 값’을 의미하는 CSV 형식은 많은 외부 기계 학습 도구에서 사용되는 파일 형식입니다. Machine Learning 사용되는 네이티브 데이터 세트 형식은 .NET 데이터 테이블 기반이므로 .NET 라이브러리에서 읽을 수 있지만 CSV는 R 또는 Python과 같은 오픈 소스 언어로 작업할 때 일반적인 교환 형식입니다.

Machine Learning Studio(클래식)에서 대부분의 작업을 수행하더라도 외부 도구에서 사용할 데이터 세트를 CSV로 변환하는 것이 편리할 수 있습니다. 예를 들면 다음과 같습니다.

  • CSV 파일을 다운로드하여 Excel에서 열거나 관계형 데이터베이스로 가져옵니다.
  • CSV 파일을 클라우드 스토리지에 저장하고 Power BI에서 연결하여 시각화를 만듭니다.
  • CSV 형식을 사용하여 R 및 Python에서 사용할 데이터를 준비합니다. 모듈의 출력을 마우스 오른쪽 단추로 클릭하여 Python 또는 Jupyter Notebook에서 직접 데이터에 액세스하는 데 필요한 코드를 생성합니다.

데이터 세트를 CSV로 변환하면 파일이 Azure ML 작업 영역에 저장됩니다. Azure Storage 유틸리티를 사용하여 파일을 직접 열고 사용하거나 모듈 출력을 마우스 오른쪽 단추로 클릭하고 CSV 파일을 컴퓨터에 다운로드하거나 R 또는 Python 코드에서 사용할 수 있습니다.

CSV로 변환을 구성하는 방법

  1. CSV로 변환 모듈을 실험에 추가합니다. 이 모듈은 Studio(클래식)의 데이터 형식 변환 그룹에서 찾을 수 있습니다.

  2. 이를 데이터 세트를 출력하는 모듈에 연결합니다.

  3. 실험을 실행하거나 CSV로 변환 모듈을 클릭한 다음 실행을 선택합니다.

결과

CSV로 변환의 출력을 두 번 클릭하고 다음 옵션 중 하나를 선택합니다.

  • 다운로드: 로컬 폴더에 저장할 수 있는 CSV 형식의 데이터 복사본을 즉시 엽니다. 폴더를 지정하지 않으면 기본 파일 이름이 적용되고 CSV 파일이 로컬 다운로드 라이브러리에 저장됩니다.

    데이터 세트 다운로드를 선택하는 경우 데이터 세트를 열 것인지 아니면 로컬 파일에 저장할지를 지정해야 합니다.

    열기를 선택하면 기본적으로 .CSV 파일(예: Microsoft Excel)과 연결된 애플리케이션을 사용하여 데이터 세트가 로드됩니다.

    데이터 세트 다운로드를 선택하는 경우 기본적으로 파일은 모듈 이름과 작업 영역 ID를 나타내는 GUID로 저장됩니다. 그러나 다운로드하는 동안 다른 이름으로 저장 옵션을 선택하고 파일 이름 또는 위치를 변경할 수 있습니다.

  • 데이터 세트로 저장: CSV 파일을 Azure ML 작업 영역에 별도의 데이터 세트로 저장합니다.

  • 데이터 액세스 코드 생성: Azure ML Python을 사용하거나 R을 사용하여 데이터에 액세스할 수 있는 두 가지 코드 집합을 생성합니다. 데이터에 액세스하려면 코드 조각을 애플리케이션에 복사합니다.

  • 새 Notebook에서 열기: 새 Jupyter Notebook이 만들어지고 Microsoft R Open에서 선택한 언어인 Python 2, Python 3 또는 R을 사용하여 작업 영역에서 데이터를 읽기 위해 삽입된 코드입니다.

    예를 들어 R 옵션을 선택하면 CSV 파일을 데이터 프레임에 로드하고 함수를 사용하여 처음 몇 개의 행을 표시하는 샘플 R 코드가 head 제공됩니다.

기술 정보

이 섹션에는 구현 정보, 팁, 질문과 대답이 포함되어 있습니다.

CSV 형식의 요구 사항

CSV 파일 형식은 많은 기계 학습 프레임워크에서 지원하는 인기 있는 형식입니다. 형식은 다양하게 "쉼표로 구분된 값" 또는 "문자로 구분된 값"이라고 합니다.

CSV 파일에서는 표 형식 데이터(숫자와 텍스트)가 일반 텍스트 형식으로 저장됩니다. CSV 파일은 특정 종류의 줄 바꿈으로 구분된 임의의 수의 레코드로 구성됩니다. 각 레코드는 리터럴 쉼표로 구분된 필드로 구성됩니다. 일부 지역에서는 구분 기호가 세미콜론일 수 있습니다.

일반적으로 모든 레코드의 필드 수는 동일하며 누락된 값은 null 또는 빈 문자열로 표시됩니다.

Excel, Access 또는 관계형 데이터베이스에서 CSV 파일로 데이터를 쉽게 내보내 Machine Learning 사용할 수 있습니다. 파일 이름에는 일반적으로 .CSV 확장명이 있지만, Machine Learning 데이터를 CSV로 가져오려는 경우 이 파일 이름 확장명을 사용할 필요가 없습니다. XLSX, TXT 및 기타 파일을 CSV로 가져올 수 있습니다. 그러나 파일의 필드는 이전 섹션에 설명된 대로 형식이 지정되어야 하며, 파일은 UTF-8 인코딩을 사용해야 합니다.

일반적인 질문 및 문제

이 섹션에서는 CSV로 변환 모듈과 관련된 몇 가지 알려진 문제, 일반적인 질문 및 해결 방법을 설명합니다.

헤더는 단일 행이어야 합니다.

Machine Learning 사용되는 CSV 파일 형식은 단일 헤더 행을 지원합니다. 여러 줄 머리글을 삽입할 수 없습니다.

가져오기에서 지원되지만 내보내지는 않는 사용자 지정 구분 기호

CSV로 변환 모듈은 유럽에서 자주 사용되는 세미콜론(;))과 같은 대체 열 구분 기호 생성을 지원하지 않습니다.

그러나 외부 스토리지의 CSV 파일에서 데이터를 가져올 때 대체 구분 기호를 지정할 수 있습니다. 데이터 가져오기 모듈에서 인코딩이 있는 CSV 옵션을 선택하고 지원되는 인코딩을 선택합니다.

쉼표가 포함된 문자열 데이터에 대한 부정확한 열 분리

텍스트 처리 시 일반적으로 열 구분 기호로 지정할 수 있는 거의 모든 문자(탭, 공백, 쉼표 등)도 텍스트 필드에서 임의로 찾을 수 있습니다. CSV에서 텍스트를 가져오려면 항상 불필요한 새 열에서 텍스트를 구분하지 않도록 주의해야 합니다.

쉼표가 포함된 문자열 데이터 열을 내보내려고 하면 문제가 발생할 수도 있습니다. Machine Learning 따옴표로 문자열을 묶는 것과 같이 이러한 데이터의 특수한 처리 또는 특수 번역을 지원하지 않습니다. 또한 쉼표 앞에 이스케이프 문자를 사용하여 쉼표가 리터럴 문자로 처리되도록 할 수 없습니다.

따라서 문자열 필드에 있는 각 쉼표의 출력 파일에 새 필드가 만들어집니다. 이 문제를 방지하기 위해 다음과 같은 몇 가지 해결 방법이 있습니다.

  • 텍스트 전처리 모듈을 사용하여 문자열 필드에서 문장 부호 문자를 제거합니다.

  • 사용자 지정 R 스크립트 또는 Python 스크립트 를 사용하여 텍스트를 처리하고 데이터를 올바르게 내보낼 수 있는지 확인합니다.

UTF-8 인코딩 필요

CSV로 변환 모듈은 UTF-8 문자 인코딩만 지원합니다. 다른 인코딩을 사용하여 데이터를 내보내야 하는 경우 R 스크립트 실행 또는 Python 스크립트 실행 모듈을 사용하여 사용자 지정 출력을 생성할 수 있습니다.

데이터 세트에 열 이름이 없습니다.

CSV 파일로 내보내는 데이터 세트에 열 이름이 없는 경우 메타데이터 편집 을 사용하여 열 이름을 변환하기 전에 추가하는 것이 좋습니다. 변환 또는 내보내기 프로세스의 일부로 열 이름을 추가할 수 없습니다.

SYLK: 파일 형식이 잘못되었습니다.

CSV로 변환하는 데이터 세트의 첫 번째 열에 이름 ID가 있는 경우 Excel 파일을 열려고 할 때 다음 오류가 발생할 수 있습니다.

"SYLK: 파일 형식이 잘못되었습니다."

이 오류를 방지하려면 열의 이름을 바꿔야 합니다.

CSV에서 가져오는 데 도움이 필요합니다.

가져오기의 경우 CSV로 내보내기 모듈을 사용하지 마세요. 대신 데이터 가져오기 모듈을 사용합니다.

CSV에서 가져오는 방법에 대한 일반적인 내용은 다음 리소스를 참조하세요.

예상 입력

이름 Type Description
데이터 세트 데이터 테이블 입력 데이터 세트

출력

이름 Type Description
결과 데이터 집합 GenericCsv 출력 데이터 세트

참고 항목

데이터 형식 변환
전체 모듈 목록