データ形式のオプション

Azure Databricks には、Apache Spark でネイティブでサポートされているすべてのデータ形式のキーワード バインドが組み込まれています。 Azure Databricks では、データとテーブルの読み取りと書き込みの既定のプロトコルとして Delta Lake を使用しますが、Apache Spark では Parquet を使用します。

これらの記事では、Azure Databricks でデータを照会するときに使用できる多くのオプションと構成の概要について説明します。

次のデータ形式で、Apache Spark DataFrames と SQL に組み込まれたキーワード構成があります。

Azure Databricks には、MLflow 実験を読み込むためのカスタム キーワードも用意されています。

特別な考慮事項があるデータ形式

一部のデータ形式では、使用するために追加の構成や特別な考慮事項が必要です。

  • Databricks では、イメージbinary データとしてを読み込むことをお勧めします。
  • Apache Spark では、Hive テーブルはネイティブでサポートされていますが、Azure Databricks での構成が必要です。
  • Azure Databricks では、圧縮されたファイルを多くのファイル形式で直接読み取ることができます。 必要に応じて、Azure Databricks で圧縮ファイルを解凍することもできます。
  • LZO にはコーデックのインストールが必要です。

Apache Spark データ ソースの詳細については、汎用読み込み/保存関数汎用ファイル ソース オプションを参照してください。