信頼できる唯一の情報源を構築する意味
Databricks レイクハウスは、データ アクセスとストレージを 1 つのシステムに統合することで、複数のシステム間でデータのコピーを作成、同期する必要性をなくし、信頼できる唯一の情報源 (SSOT) としてのレイクハウスを確立しています。 データの複製は、組織内の複数のチームが扱う同じデータに、品質や鮮度の異なるバージョンが生じるという、データサイロの原因となることが少なくありません。
レイクハウスがトランザクションとデータ アクセスをどのように制御するか
Delta Lake のトランザクションは、データ ファイルと共に格納されるログ ファイルを使用して、テーブル レベルで ACID を保証します。 Delta Lake テーブルの実体となるデータとログ ファイルはクラウド オブジェクト ストレージに共存するため、データの読み取りと書き込みが同時に発生しても、多くのクエリでパフォーマンスの低下が生じたり、ビジネスクリティカルなワークロードがデッドロック状態に陥ったりする心配はありません。 つまり、エンタープライズ環境全域のユーザーとアプリケーションが、1 つの同じデータのコピーに接続して多様なワークロードを駆動する一方、すべての閲覧者に、クエリ実行時点の最新バージョンのデータが提示されることが保証されます。
運用データへのアクセスを管理する
Unity Catalog は、データ スチュワードがユーザー、グループ、サービス プリンシパルにきめ細かなアクセスの制御を提供できる一元化されたデータ ガバナンス ソリューションとなります。 Unity Catalog によるアクセス許可の管理には、リソースの構成に柔軟性と限定性の両方を提供するアクセス制御リスト (ACL) が使用されます。 構成可能なアクセス許可の例を次に示します。
- 少数のテーブルへの読み取り専用アクセス。
- データベースのテーブルの作成と変更のアクセス許可。
- 特定のクラウド ストレージ ロケーションにあるデータの読み取りと変更の権限。
- Unity Catalog のマネージド ストレージの資格情報による、さまざまなクラウド リソースへのアクセス。
詳細については、「Unity Catalog とは」を参照してください。
レイクハウスのビューを活用する
Azure Databricks のビューは、レイクハウス内のどこかにあるテーブルの格納データに対する保存済みのクエリを表します。 テーブルとして返されるクエリは書き込み時に実行されるのに対し、ビューの定義ロジックは、ビューに対するクエリが実行されるたびに実行されます。 つまり、さまざまなソースのデータに対する最新のアクセスがビューによって得られ、コンピューティングは必要なときに結果を更新する目的でのみ使用されます。
Unity Catalog を使用して、他のデータオブジェクトと一緒にビューを確保、共有することにより、ビジネス上の重要な決定を下す原動力となるロジックを、組織全体の個人とチームで共有することができます。
詳細については、「ビューとは」を参照してください。
コラボレーターとデータを共有する
Unity Catalog の ACL は、企業組織内でデータを共有するための幅広いユース ケースに対応しますが、Delta Sharing は、空間的な制約を超えてコラボレーターと共有できるデータセットへの読み取り専用アクセスを管理することによってさらにそれを拡張します。 Unity Catalog でサポートされるユース ケースは次のとおりです。
- 多国籍企業の個別のリージョンについて、地域的分析をリアルタイムで利用できるようにする。
- 同じ企業の傘の下に存在する個別の企業間でデータセットを共有する。
- サードパーティのコンシューマー向けに、顧客がキュレーションしたデータセットに安全にアクセスできるようにする。
Delta Sharing は、Unity Catalog と共に Azure Databricks に組み込まれていますが、オープンソースの Delta Lake の一部でもあります。 詳細については、「Delta Sharing とは」を参照してください。