Apache Hive の互換性

適用対象: 「はい」のチェックマーク Databricks Runtime

Azure Databricks の Apache Spark SQL は、メタストア接続性、SerDes、UDF など、Apache Hive と互換性を持つように設計されています。

SerDes と UDF

Hive SerDes と UDF は、Hive 1.2.1 に基づきます。

Azure Databricks を外部的にホストされた Hive メタストアに接続する方法については、外部 Apache Hive メタストア (レガシ) に関するページを参照してください。

Spark SQL は、次のような Hive 機能の大部分をサポートしています。

次のセクションには、Spark SQL でサポートされていない Hive 機能の一覧が含まれています。これらの機能の大部分は、Hive デプロイではほとんど使用されません。

共用体型
一意の結合
列統計の収集: Spark SQL は、現時点で列統計を収集するためのスキャンをピギーバックせず、Hive メタストアの sizeInBytes フィールドの設定のみをサポートします

Spark には、一部の Hive 最適化は含まれていません。これらの一部 (インデックスなど) は、Spark SQL のメモリ内計算モデルのためにあまり重要ではありません。

ブロックレベルのビットマップインデックスと仮想列 (インデックスの作成に使用)。
結合と groupbys の Reducer の数を自動的に決定する: Spark SQL では、SET spark.sql.shuffle.partitions=[num_tasks]; を使用して、シャッフル後の並列処理の次数を制御する必要があります。
傾斜データフラグ: Spark SQL は Hive の傾斜データフラグに従いません。
STREAMTABLE 結合のヒント: Spark SQL は STREAMTABLE ヒントに従いません。
クエリ結果に対して複数の小さなファイルをマージする: 結果出力に複数の小さなファイルが含まれている場合、Hive では、必要に応じて HDFS メタデータのオーバーフローを回避するために、小さいファイルを少数の大きなファイルにマージできます。 Spark SQL ではサポートされません。

このページはお役に立ちましたか?