次の方法で共有


データ レイクハウスの相互運用性と使いやすさ

この記事は、ユーザーや他のシステムとのレイクハウスの相互作用に言及し、相互運用性と使いやすさという柱のアーキテクチャの原則について説明します。 レイクハウスの基本的な考え方の 1 つは、関わるすべての人に優れたユーザー エクスペリエンスを提供し、外部システムの広範なエコシステムと対話できることです。

  • 相互運用性は、システムが他のシステムと連携し、統合する機能です。 これは、さまざまなコンポーネントと製品間 (複数のベンダーの可能性あり)、および同じ製品の過去と将来のバージョン間の相互作用を示します。
  • 使いやすさは、安全、効果的、かつ効率的にタスクを実行するための最良のエクスペリエンスをユーザーに提供するシステムの特性です。

Interoperability and usability lakehouse architecture diagram for Databricks.

この柱の原則に従うと、次のことに役立ちます。

  • 一貫性があり、共同作業に適したユーザー エクスペリエンスを実現します。
  • クラウド間の相乗効果を活用します。
  • レイクハウスとの間の統合を簡素化します。
  • トレーニングと有効化のコストを削減します。

そして最終的には、価値実現までの時間の短縮につながります。

相互運用性と使いやすさの原則

  1. 統合の標準を定義する

    統合には異なる側面があり、多くの異なる方法で実行できます。 ツールとアプローチの急増を回避するには、ベスト プラクティスを定義する必要があり、適切にサポートされ、推奨されるツールとコネクタの一覧を提供する必要があります。

    アーキテクチャの主要な原則の 1 つは、緊密な統合ではなく、モジュール性と疎結合です。 これにより、コンポーネントとワークロード間の依存関係が減少して、副作用の排除に役立ち、さまざまな時間スケールで独立した開発が可能になります。 データセットとそのスキーマをコントラクトとして使用します。 データ ラングリング ジョブ (データレイクへのデータの読み込みと変換など) などのワークロードを、付加価値ジョブ (レポート作成、ダッシュボード、データ サイエンス特徴エンジニアリングなど) から分離します。 データ形式、データ品質、およびデータ ライフサイクルのガイドラインを使用して、中央のデータ カタログを定義します。

  2. オープン インターフェイスとオープン データ形式を優先する

    多くの場合、ソリューションは、特定のシステム経由でのみデータにアクセスできる場所で開発されます。 これは、ベンダーのロックインにつながる可能性がありますが、そのシステム経由のデータ アクセスにライセンス料金が課される場合は、大きなコスト ドライバーになる可能性もあります。 オープンなデータ形式とインターフェイスを使用すると、これを回避するのに役立ちます。 これらは、既存のシステムとの統合の簡素化と、既にツールをレイクハウスと統合しているパートナーのエコシステムの開放も行います。

    データ サイエンス用の Python や R、またはデータ アクセスとアクセス権の制御用の Spark や ANSI SQL などのオープン ソース エコシステムを使用すると、プロジェクトの担当人員を見つけるのが簡単になります。 これは、プラットフォームとの間の潜在的な移行の簡素化も行います。

  3. ユース ケース実装の障壁を下げる

    データ レイク内のデータを最大限に活用するには、ユーザーがプラットフォームにユース ケースを簡単にデプロイできる必要があります。 これは、プラットフォームアクセスとデータ管理に関するリーン プロセスから始まります。 たとえば、プラットフォームへのセルフサービス アクセスは、中央のチームがボトルネックになることを防ぐのに役立ちます。 新しい環境をデプロイするための共有環境と定義済みのブループリントを使用すると、プラットフォームをビジネス ユーザーが迅速に利用できるようになります。

  4. データの一貫性と使いやすさを確保する

    データ プラットフォーム上の 2 つの重要なアクティビティは、"データの発行" と "データの利用" です。 発行の観点からは、データを製品として提供する必要があります。 発行元は利用者を念頭に置いて定義されたライフサイクルに従う必要があり、データはマネージド スキーマや説明などを使用して明確に定義する必要があります。

    利用者が異なるデータ セットを簡単に理解して正しく結合できるように、意味に一貫性があるデータを提供することも重要です。 さらに、すべてのデータは、適切にキュレーションされたメタデータとデータ系列を持つ中央のカタログを通じて、利用者が簡単に検出およびアクセスできる必要があります。

次: 相互運用性と使いやすさのベスト プラクティス

相互運用性と使いやすさのベスト プラクティス」を参照してください。