Zip 압축 파일 펼치기 및 읽기
unzip
Bash 명령을 사용하여 Zip으로 압축된 파일 또는 디렉터리를 펼칠 수 있습니다. .zip
으로 끝나는 파일 또는 디렉터리를 다운로드하거나 발견하면 계속하기 전에 데이터를 펼칩니다.
참고 항목
Apache Spark는 Parquet 압축 파일과 상호 작용하기 위한 네이티브 코덱을 제공합니다. Azure Databricks에서 작성한 대부분의 Parquet 파일은 스냅 압축을 사용함을 나타내는 것으로 끝납니 .snappy.parquet
다.
데이터 압축을 푸는 방법
Azure Databricks %sh
매직 명령을 사용하면 unzip
명령을 포함하여 임의의 Bash 코드를 실행할 수 있습니다.
다음 예제에서는 인터넷에서 다운로드한 zip으로 압축된 CSV 파일을 사용합니다. 인터넷에서 데이터 다운로드를 참조하세요.
참고 항목
Databricks 유틸리티를 사용하여 파일을 확장하기 전에 드라이버에 연결된 임시 스토리지로 이동할 수 있습니다. Zip 파일이 Unity 카탈로그 볼륨에 있는 동안에는 확장할 수 없습니다. Databricks 유틸리티(dbutils) 참조를 참조하세요.
다음 코드는 curl
을 사용하여 데이터를 다운로드한 다음 unzip
을 사용하여 데이터를 펼칩니다.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
다음과 같이 dbutils를 사용하여 확장된 파일을 Unity 카탈로그 볼륨으로 이동합니다.
dbutils.fs.mv("file:/LoanStats3a.csv", "/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
이 예제에서 다운로드한 데이터의 첫 번째 행에는 주석, 두 번째 행에는 헤더가 있습니다. 이제 데이터가 펼쳐지고 이동했으므로 다음 예제와 같이 CSV 파일을 읽기 위한 표준 옵션을 사용합니다.
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)
피드백
https://aka.ms/ContentUserFeedback
출시 예정: 2024년 내내 콘텐츠에 대한 피드백 메커니즘으로 GitHub 문제를 단계적으로 폐지하고 이를 새로운 피드백 시스템으로 바꿀 예정입니다. 자세한 내용은 다음을 참조하세요.다음에 대한 사용자 의견 제출 및 보기