다음을 통해 공유


압축된 데이터 세트 압축 풀기

사용자 스토리지의 zip 패키지에서 데이터 세트 압축 풀기

범주: 데이터 입력 및 출력

참고

적용 대상: Machine Learning Studio(클래식) 전용

유사한 끌어서 놓기 모듈은 Azure Machine Learning 디자이너에서 사용할 수 있습니다.

모듈 개요

이 문서에서는 Machine Learning Studio(클래식)의 압축 해제 데이터 세트 모듈을 사용하여 압축된 형식으로 데이터 및 스크립트 파일을 업로드한 다음 실험에서 사용할 수 있도록 압축을 푸는 방법을 설명합니다.

이 모듈의 목적은 데이터 파일을 압축된 형식으로 저장하고 업로드하여 매우 큰 데이터 세트로 작업할 때 데이터 전송 시간을 줄이는 것입니다. 일반적으로 데이터 세트가 너무 커서 업로드에 압축을 사용하여 업로드 시간과 관련 비용을 최소화하려는 경우 파일을 압축하는 것이 좋습니다.

모듈은 작업 영역에서 데이터 세트를 입력으로 사용합니다. 데이터 세트가 압축된 형식으로 업로드되어 있어야 합니다. 그런 다음, 모듈은 데이터 세트를 압축 해제하고 작업 영역에 데이터를 추가합니다.

압축 풀기 데이터 세트 사용 방법

이 섹션에서는 데이터를 준비한 다음 Machine Learning Studio(클래식)에서 압축을 풉니다.

1단계: 파일 준비

파일을 업로드하기 전에 파일의 데이터를 Machine Learning 사용할 수 있는지 확인합니다.

  • 파일의 데이터가 UTF-8 인코딩을 사용하는지 확인합니다.

    파일이 충분히 작은 경우 메모장 파일을 연 다음 원하는 인코딩에 파일을 저장할 수 있습니다. 다른 많은 텍스트 편집기도 비슷한 기능을 제공합니다. CSV 파일의 경우 Excel 다른 이름으로 저장 또는 내보내기 명령을 사용하여 파일 형식 및 인코딩을 지정할 수 있습니다.

  • 데이터 파일이 CSV, TSV, ARFF 또는 SVMLight와 같은 지원되는 형식을 사용하는지 확인합니다.

  • 데이터 파일을 .ZIP 또는 .에 추가하여 데이터를 압축합니다. GZ 형식 보관 파일입니다. 다른 보관 유형은 지원되지 않습니다.

  • 암호 보호를 제거합니다. 파일 또는 압축된 폴더 자체가 암호화되거나 암호로 보호된 경우 파일을 업로드하기 전에 잠금을 해제하거나 암호를 해독해야 합니다. 모듈은 암호화된 데이터 형식을 검색할 수 없으며 임의 클라이언트의 암호 입력에 대한 대화 상자를 지원하지 않습니다.

2단계. 작업 영역에 데이터 세트 업로드

다음으로, 압축된 데이터 세트를 실험 작업 영역에 업로드합니다.

  1. 새로 만들기를 클릭하고, 데이터 세트를 선택하고, 로컬 파일에서 선택합니다.

  2. 업로드할 압축된 파일을 찾습니다. 파일을 선택하면 형식이 자동으로 Zip 파일(.zip)로 설정됩니다.

3단계: 실험에 압축된 데이터 세트 추가

데이터 세트가 완전히 업로드된 후 압축된 형식으로 실험에 추가합니다.

  1. Machine Learning Studio(클래식)의 왼쪽 탐색 창에서 저장된 데이터 세트를 선택한 다음 내 데이터 세트를 확장합니다.

  2. 방금 업로드한 압축된 데이터 세트를 찾아 실험 캔버스로 끕니다.

4단계. 데이터 세트 압축 풀기

마지막 단계는 데이터 세트의 압축을 푸는 것입니다.

  1. 압축된 데이터 세트를 압축 풀기 데이터 세트 모듈의 입력으로 커넥트.

  2. 압축을 풀기 위한 데이터 세트에서 압축을 풀 단일 데이터 세트의 이름을 입력합니다.

    • Sheet1이라는 이름의 워크시트를 Test.csvExcel CSV 파일로 저장한 경우 데이터 세트의 이름은 Sheet1이 아닌 Test.csv.

    • 데이터 세트에서 압축 해제 텍스트 상자에 입력하는 이름은 파일 이름 확장명을 포함하여 압축되기 전에 원본 파일의 이름과 정확히 동일해야 합니다. 예를 들어 텍스트 파일 Users.txt따라 데이터 세트의 압축을 풀려면 사용자가 아닌 Users.txt입력 합니다.

    • 압축된 폴더 하나에 여러 파일을 배치하는 경우 한 번에 하나의 데이터 세트의 압축을 풀어야 합니다.

    속성을 비워 두면 압축된 보관 파일에 원본 파일이 하나만 포함되어 있다고 가정하면 모듈이 압축된 파일에서 파일 이름을 가져옵니다. 압축된 보관 파일에 여러 파일이 포함된 경우 런타임 오류가 발생합니다.

  3. 데이터 세트 파일 형식의 경우 데이터 세트의 원래 형식, 즉 압축되기 전의 형식을 지정합니다.

    CSV, ARFF, TSV, SvmLight 형식을 사용하여 만든 데이터 세트를 업로드하고 압축을 풉니다.

    이 속성을 비워 두면 모듈은 원본 파일 이름을 사용하여 데이터 세트를 식별합니다.

  4. 원본 데이터 세트에 머리글 행이 있는 경우 파일에 머리글 행이 있는 옵션을 선택합니다. 그렇지 않으면 데이터의 첫 번째 행이 헤더로 사용됩니다. 원하는 내용이 아닌 경우 입력 전에 헤더를 추가합니다.

    이 옵션은 .CSV 및 .에만 적용됩니다. TSV 파일.

    참고

    파일 형식을 변경하면 이 옵션이 다시 설정됩니다.

  5. 파일이 압축된 경우 압축 파일 형식 옵션을 사용하여 파일을 압축하거나 확장하는 데 사용된 알고리즘을 지정합니다.

    현재 .ZIP 및 GZ(또는 Gzip) 형식이 지원됩니다.

  6. 실험을 실행합니다.

결과

  • 데이터를 올바르게 가져왔는지 확인하려면 압축을 푼 압축 해제된 데이터 세트 모듈을 마우스 오른쪽 단추로 클릭하고 시각화 를 선택합니다.

  • 데이터 세트의 이름을 변경하려면 압축 풀 기 데이터 세트 모듈을 마우스 오른쪽 단추 로 클릭하고 데이터 세트로 저장을 선택합니다. 이 시점에서 다른 이름을 입력할 수 있습니다.

    이 옵션은 단일 ZIP 파일에서 여러 데이터 세트의 압축을 풉니다.

이 모듈의 작동 방식을 설명하기 위해 4개의 서로 다른 CSV 파일이 포함된 샘플 .ZIP 파일을 만들었습니다. 모든 파일이 Excel 저장되었습니다.

파일 이름 Description
names-uni.csv 열 머리글이 있는 유니코드 파일
names-utf.csv 열 머리글이 있는 UTF-8 파일
nonames-uni.csv 열 머리글이 없는 유니코드 파일
nonames-utf8.csv 열 머리글이 없는 UTF-8 파일

압축된 파일 전체를 업로드한 다음 압축 풀기 데이터 세트 모듈을 네 번 실행하여 다음 설정을 사용하여 네 개의 파일을 각각 추출했습니다.

  1. 압축을 풀 데이터 세트 = names-uni.csv, 파일에 머리글 행 = TRUE가 있습니다.
  2. 압축을 풀 데이터 세트 = names-utf8.csv, 파일에 머리글 행 = TRUE가 있습니다.
  3. 압축을 풀 데이터 세트 = nonames-uni.csv, 파일에 머리글 행 = FALSE가 있습니다.
  4. 압축을 풀 데이터 세트 = nonames-utf8.csv, 파일에 머리글 행 = FALSE가 있습니다.

결과는 예상대로 다음과 같습니다.

파일 이름 업로드 결과
names-uni.csv 오류 0049: 파일을 구문 분석하는 동안 오류가 발생했습니다. 파일이 유니코드(UTF-8)로 인코딩되지 않음
names-utf8.csv 성공. 원본 파일의 원래 열 이름을 사용합니다.
nonames-uni.csv 오류 0049: 파일을 구문 분석하는 동안 오류가 발생했습니다. 파일이 유니코드(UTF-8)로 인코딩되지 않음
nonames-utf8.csv 성공. 열 이름 Col1, col2, ... coln 은 데이터 세트에 자동으로 추가됩니다.

참고

이 옵션을 사용하는 경우 파일에 머리글 행 = TRUE가 있고 원본 파일에 실제로 열 머리글이 없으면 데이터의 첫 번째 행이 열 머리글로 사용됩니다.

기술 정보

이 모듈을 사용하여 압축된 R 패키지를 작업 영역으로 압축을 풀 수 없습니다. R 패키지를 업로드하고 압축된 파일로 사용해야 합니다.

압축된 R 패키지를 사용하는 방법에 대한 자세한 내용은 R 스크립트 실행(Execute R Script)을 참조하세요.

참고

UTF-8과 유니코드의 차이점에 대해 혼동하시겠습니까? 이 Wikipedia 문서 참조: UTF-8이란?

모듈 매개 변수

Name 범위 Type 기본값 설명
압축 파일 형식 Zip

Gzip
압축 규칙 Zip 파일을 압축하거나 확장하는 데 사용되는 압축 알고리즘입니다.
데이터 세트를 압축 풀기 모두 문자열 없음 Azure ML Studio(클래식)에 등록할 데이터 세트의 이름입니다. 데이터 세트의 이름을 지정하지 않으면 압축된 파일의 파일 이름에서 이름을 가져옵니다.
데이터 세트 파일 형식 CSV

TSV

ARFF

SVMLIGHT
파일 형식 CSV 압축된 파일의 데이터 세트 파일 형식
파일에 헤더 행이 있음 TRUE/FALSE 부울 아니요 CSV/TSV 파일에 머리글 행이 있는 경우에만 True 로 설정

예상 입력

Name 유형 설명
데이터 세트 Zip 데이터 세트가 포함된 압축된 파일

출력

Name 유형 설명
결과 데이터 집합 데이터 테이블 출력 데이터 세트

참고 항목

데이터 입력 및 출력