Azure Databricks を使用してデータ レイクハウス ソリューションを実装する

中級
データ エンジニア
Azure Databricks

クラウドで大規模な Data Engineering ワークロードを実行するために、Azure Databricks プラットフォームで実行されている Apache Spark と強力なクラスターの機能の活用方法について説明します。

前提条件

なし

このラーニング パス内のモジュール

Azure Databricks は、Apache Spark を使用したデータ分析のためのスケーラブルなプラットフォームを提供するクラウド サービスです。

Azure Databricks を使用してデータ分析を実行する方法について学習します。 さまざまなデータ インジェスト方法と、Azure Data Lake や Azure SQL Database などのソースからのデータを統合する方法について確認します。 このモジュールでは、コラボレーション ノートブックを使用して探索的データ分析 (EDA) を実行し、データを視覚化、操作、調査して、パターン、異常、相関関係を明らかにします。

Azure Databricks は Apache Spark 上に構築されており、データ エンジニアやアナリストは Spark ジョブを実行して、大規模なデータの変換、分析、視覚化を行うことができます。

Delta Lake は Azure Databricks の中のデータ管理ソリューションであり、ACID トランザクション、スキーマ強制、タイム トラベルなどの機能によってデータの一貫性、整合性、バージョン管理を確実に実現します。

Delta Live Tables を使用してデータ パイプラインを構築することで、Azure Databricks で Delta Lake の高度な機能を使用したリアルタイムでスケーラブルで信頼性の高いデータ処理が可能になります

Azure Databricks ワークフローを使用してワークロードをデプロイするには、複雑なデータ処理パイプライン、機械学習ワークフロー、分析タスクを調整および自動化する必要があります。 このモジュールでは、Databricks ワークフローを使用してワークロードをデプロイする方法について説明します。

Azure Databricks には、データ アナリストが使い慣れたリレーショナル SQL クエリを使用してデータを操作できる SQL Warehouse が用意されています。

Azure Data Factory のパイプラインを使用して Azure Databricks でノートブックを実行すると、クラウド規模でデータ エンジニアリング プロセスを自動化できます。