다음을 통해 공유


Zip 압축 파일 펼치기 및 읽기

unzip Bash 명령을 사용하여 Zip으로 압축된 파일 또는 디렉터리를 펼칠 수 있습니다. .zip으로 끝나는 파일 또는 디렉터리를 다운로드하거나 발견하면 계속하기 전에 데이터를 펼칩니다.

참고 항목

Apache Spark는 Parquet 압축 파일과 상호 작용하기 위한 네이티브 코덱을 제공합니다. Azure Databricks에서 작성한 대부분의 Parquet 파일은 스냅 압축을 사용함을 나타내는 것으로 끝납니 .snappy.parquet다.

데이터 압축을 푸는 방법

Azure Databricks %sh매직 명령을 사용하면 unzip 명령을 포함하여 임의의 Bash 코드를 실행할 수 있습니다.

다음 예제에서는 인터넷에서 다운로드한 zip으로 압축된 CSV 파일을 사용합니다. 인터넷에서 데이터 다운로드를 참조하세요.

참고 항목

Databricks 유틸리티를 사용하여 파일을 확장하기 전에 드라이버에 연결된 임시 스토리지로 이동할 수 있습니다. Zip 파일이 Unity 카탈로그 볼륨에 있는 동안에는 확장할 수 없습니다. Databricks 유틸리티(dbutils) 참조를 참조하세요.

다음 코드는 curl을 사용하여 데이터를 다운로드한 다음 unzip을 사용하여 데이터를 펼칩니다.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

다음과 같이 dbutils를 사용하여 확장된 파일을 Unity 카탈로그 볼륨으로 이동합니다.

dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")

이 예제에서 다운로드한 데이터의 첫 번째 행에는 주석, 두 번째 행에는 헤더가 있습니다. 이제 데이터가 펼쳐지고 이동했으므로 다음 예제와 같이 CSV 파일을 읽기 위한 표준 옵션을 사용합니다.

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)