導入
Azure Databricks は、データ エンジニアリング、データ サイエンス、機械学習 のベストを 1 つの統合されたワークスペースにまとめるクラウドベースのデータ プラットフォームです。 Apache Spark を基に構築されているため、組織は大量のデータをリアルタイムで簡単に処理、分析、視覚化できます。
Azure SQL Database、Amazon S3、Google Cloud Storage などのクラウド プロバイダーから SAP や Oracle などのエンタープライズ システムまで、さまざまな データ ソースに接続することで、Azure Databricks を使用すると、どこからでも簡単にデータを統合および変換できます。
データが取り込まれる と、営業、マーケティング、運用、財務、人事、持続可能性 の各チームが Databricks を使用して、高度な分析、機械学習、ビジネス インテリジェンス、AI 主導の分析情報を得ることができます。
Azure Databricks はその中核で組織を支援します。
- 複数のソースからのデータを統合する
- 生データを設計して使用可能な形式に変換する
- ガバナンスとセキュリティを使用してデータを効率的に格納および管理する
- リアルタイム分析、機械学習、AI モデルを適用する
- ビジネス上の意思決定と成果の向上を推進する
Data Lakehouse
Data Lakehouse は、データ レイクとデータ ウェアハウスの両方の長所を組み合わせたデータ管理アプローチです。 スケーラブルなストレージと処理が提供されるため、組織は、分離された独立したシステムに依存することなく、機械学習やビジネス インテリジェンスなどの多様なワークロードを処理できます。 データを一元化することで、レイクハウスは単一の信頼できる情報源をサポートし、重複コストを削減し、情報を最新の状態に保つことができます。
多くのレイクハウスは、データがさまざまな処理の段階を進むにつれて徐々に改善され、強化され、洗練される階層化された設計パターンに従っています。 この階層化されたアプローチ (一般に medallion アーキテクチャと呼ばれます) は、データを互いに基づくステージに整理し、効果的に管理および使用しやすくします。
Databricks Lakehouse では、次の 2 つの主要なテクノロジが使用されています。
- Delta Lake: ACID トランザクションとスキーマの適用をサポートする最適化されたストレージ レイヤー。
- Unity カタログ: データと AI 用の統一されたきめ細かいガバナンス ソリューション。