Share via


데이터 형식 옵션

Azure Databricks에는 Apache Spark에서 기본적으로 지원하는 모든 데이터 형식에 대한 기본 제공 키워드(keyword) 바인딩이 있습니다. Azure Databricks는 데이터와 테이블을 읽고 쓰기 위한 기본 프로토콜로 Delta Lake를 사용하는 반면 Apache Spark는 Parquet를 사용합니다.

이러한 문서에서는 Azure Databricks에서 데이터를 쿼리할 때 사용할 수 있는 다양한 옵션 및 구성에 대한 개요를 제공합니다.

다음 데이터 형식에는 Apache Spark DataFrames 및 SQL의 기본 제공 키워드(keyword) 구성이 있습니다.

Azure Databricks는 MLflow 실험을 로드하기 위한 사용자 지정 키워드도 제공합니다.

특별한 고려 사항이 있는 데이터 서식

일부 데이터 형식을 사용하려면 추가 구성 또는 특별한 고려 사항이 필요합니다.

  • Databricks는 이미지binary 데이터로 로드할 것을 권장합니다.
  • Hive 테이블 은 기본적으로 Apache Spark에서 지원되지만 Azure Databricks에서 구성이 필요합니다.
  • Azure Databricks는 여러 파일 형식으로 압축된 파일을 직접 읽을 수 있습니다. 필요한 경우 Azure Databricks에서 압축 파일의 압축을 해제할 수도 있습니다.
  • LZO에는 코덱 설치가 필요합니다.

Apache Spark 데이터 원본에 대한 자세한 내용은 제네릭 로드/저장 함수제네릭 파일 원본 옵션을 참조하세요.