Delta Lake について理解する

3 分

Delta Lake は、Spark ベースのデータレイク処理にリレーショナルデータベースのセマンティクスを追加する、オープンソースのストレージレイヤーです。 Microsoft Fabric Lakehouses のテーブルは Delta テーブルです。これは、Lakehouse ユーザーインターフェイスのテーブルの三角形のデルタ (Δ) アイコンで表されます。

Microsoft Fabric の Lakehouse エクスプローラーで表示された salesorders テーブルのスクリーンショット。

Delta テーブルは、Delta 形式で格納されているデータファイルに対するスキーマの抽象化です。テーブルごとに、Lakehouse には Parquet データファイルを含むフォルダーと、トランザクションの詳細が JSON 形式でログに記録される_delta_Log フォルダーが格納されます。

レイクハウスエクスプローラーで表示された salesorders テーブルの Parquet ファイルのファイルビューのスクリーンショット。

Delta テーブルを使用する利点は次のとおりです。

クエリとデータ変更をサポートするリレーショナルテーブル。 Apache Spark を使用すると、 CRUD (作成、読み取り、更新、および削除) 操作をサポートする Delta テーブルにデータを格納できます。つまり、リレーショナルデータベースシステムと同じ方法で、データ行の "選択"、"挿入"、"更新"、"削除" を行うことができます。
ACID トランザクションのサポート。リレーショナルデータベースは、 アトミック性 (トランザクションが 1 つの作業単位として完了)、 一貫性 (トランザクションがデータベースを一貫した状態に保つ)、分離 (インプロセストランザクションが相互に干渉できない)、 持続性 (トランザクションが完了すると変更が保持される) を提供するトランザクションデータの変更をサポートするように設計されています。 Delta Lake は、トランザクションログを実装し、同時実行操作にシリアル化可能な分離を適用することで、この同じトランザクションサポートを Spark にもたらします。
データのバージョン管理と 移動時間。すべてのトランザクションがトランザクションログに記録されるため、各テーブル行の複数のバージョンを追跡することができ、"タイムトラベル" 機能を使ってクエリ内の行の以前のバージョンを取得することもできます。
バッチデータとストリーミングデータのサポート。ほとんどのリレーショナルデータベースには静的データを格納するテーブルが含まれていますが、Spark には Spark Structured Streaming API を使用したストリーミングデータのネイティブサポートが含まれています。 Delta Lake テーブルは、ストリーミングデータの "シンク" (宛先) と "ソース" の両方として使用できます。
標準形式と相互運用性。 Delta テーブルの基になるデータは Parquet 形式で格納されます。これは、データレイクインジェストパイプラインでよく使用されます。さらに、Microsoft Fabric レイクハウスの SQL 分析エンドポイントを使用して、SQL 内の Delta テーブルのクエリを実行することもできます。

Delta Lake について理解する

フィードバック