導入

完了

Azure Databricks は、データ エンジニアリング、データ サイエンス、機械学習 のベストを 1 つの統合されたワークスペースにまとめるクラウドベースのデータ プラットフォームです。 Apache Spark を基に構築されているため、組織は大量のデータをリアルタイムで簡単に処理、分析、視覚化できます。

Azure Databricks の概要を示す図。

Azure SQL Database、Amazon S3、Google Cloud Storage などのクラウド プロバイダーから SAP や Oracle などのエンタープライズ システムまで、さまざまな データ ソースに接続することで、Azure Databricks を使用すると、どこからでも簡単にデータを統合および変換できます。

データが取り込まれる と、営業、マーケティング、運用、財務、人事、持続可能性 の各チームが Databricks を使用して、高度な分析、機械学習、ビジネス インテリジェンス、AI 主導の分析情報を得ることができます。

Azure Databricks はその中核で組織を支援します。

  • 複数のソースからのデータを統合する
  • 生データを設計して使用可能な形式に変換する
  • ガバナンスとセキュリティを使用してデータを効率的に格納および管理する
  • リアルタイム分析、機械学習、AI モデルを適用する
  • ビジネスの意思決定と成果の向上を推進する

Data Lakehouse

Data Lakehouse は、データ レイクとデータ ウェアハウスの両方の長所を組み合わせたデータ管理アプローチです。 スケーラブルなストレージと処理が提供されるため、組織は、分離された独立したシステムに依存することなく、機械学習やビジネス インテリジェンスなどの多様なワークロードを処理できます。 データを一元化することで、レイクハウスは単一の信頼できる情報源をサポートし、重複コストを削減し、情報を最新の状態に保つことができます。

多くのレイクハウスは、データがさまざまな処理の段階を進むにつれて徐々に改善され、強化され、洗練される階層化された設計パターンに従っています。 この階層化されたアプローチ (一般に medallion アーキテクチャと呼ばれます) は、データを互いに基づくステージに整理し、効果的に管理および使用しやすくします。

Databricks Lakehouse では、次の 2 つの主要なテクノロジが使用されています。

  • Delta Lake: ACID トランザクションとスキーマの適用をサポートする最適化されたストレージ レイヤー。
  • Unity カタログ: データと AI 用の統一されたきめ細かいガバナンス ソリューション。