Delta Lake を使ってみる

3 分

Delta Lake は、Spark ベースのデータレイク処理にリレーショナルデータベースのセマンティクスを追加する、オープンソースのストレージレイヤーです。 Delta Lake は、PySpark、Scala、.NET コード用の Azure Synapse Analytics Spark プールでサポートされています。

Azure Databricks で Delta Lake を使用するベネフィットは次のとおりです。

クエリの実行とデータの変更をサポートするリレーショナルテーブル。 Delta Lake を使うと、CRUD (作成、読み取り、更新、削除) 操作をサポートするテーブルにデータを格納できます。つまり、リレーショナルデータベースシステムと同じ方法で、データ行の "選択"、"挿入"、"更新"、"削除" を行うことができます。
ACID トランザクションのサポート。リレーショナルデータベースはトランザクションデータの変更をサポートするように設計されており、"原子性" (トランザクションが 1 つの作業単位として完了する)、"一貫性" (トランザクション後にデータベースの一貫した状態が保たれる)、"分離性" (インプロセストランザクションは相互に干渉できない)、"持続性" (トランザクションが完了すると、行われた変更は保持される) を備えています。 Delta Lake は、トランザクションログを実装し、同時実行操作にシリアル化可能な分離を適用することで、この同じトランザクションサポートを Spark にもたらします。
データのバージョン管理と "タイムトラベル"。すべてのトランザクションがトランザクションログに記録されるため、各テーブル行の複数のバージョンを追跡することができ、"タイムトラベル" 機能を使ってクエリ内の行の以前のバージョンを取得することもできます。
バッチデータとストリーミングデータのサポート。ほとんどのリレーショナルデータベースには静的データを格納するテーブルが含まれていますが、Spark には Spark Structured Streaming API を使用したストリーミングデータのネイティブサポートが含まれています。 Delta Lake テーブルは、ストリーミングデータの "シンク" (宛先) と "ソース" の両方として使用できます。
標準の形式と相互運用性。 Delta Lake テーブルの基になるデータは Parquet 形式で格納されます。これは、データレイクインジェストパイプラインでよく使用されます。

ヒント

Azure Databricks の Delta Lake の詳細については、Azure Databricks ドキュメントの Delta Lake ガイドを参照してください。

続行

フィードバック