データ形式のオプション

[アーティクル]
03/01/2024

Azure Databricks には、Apache Spark でネイティブでサポートされているすべてのデータ形式のキーワードバインドが組み込まれています。 Azure Databricks では、データとテーブルの読み取りと書き込みの既定のプロトコルとして Delta Lake を使用しますが、Apache Spark では Parquet を使用します。

これらの記事では、Azure Databricks でデータを照会するときに使用できる多くのオプションと構成の概要について説明します。

次のデータ形式で、Apache Spark DataFrames と SQL に組み込まれたキーワード構成があります。

Azure Databricks には、MLflow 実験を読み込むためのカスタムキーワードも用意されています。

特別な考慮事項があるデータ形式

一部のデータ形式では、使用するために追加の構成や特別な考慮事項が必要です。

Databricks では、イメージを binary データとしてを読み込むことをお勧めします。
Apache Spark では、Hive テーブルはネイティブでサポートされていますが、Azure Databricks での構成が必要です。
Azure Databricks では、圧縮されたファイルを多くのファイル形式で直接読み取ることができます。必要に応じて、Azure Databricks で圧縮ファイルを解凍することもできます。
LZO にはコーデックのインストールが必要です。

Apache Spark データソースの詳細については、汎用読み込み/保存関数と汎用ファイルソースオプションを参照してください。

データ形式のオプション

特別な考慮事項があるデータ形式

その他のリソース