Azure Databricks を使用して Data Analytics ソリューションを実装する

概略

このラーニング パスの終わりまでに、Databricks と Azure 上の Spark の両方で、高度なスキルに対する強固な中間スキルを構築できるようになります。 Spark DataFrames、Spark SQL、PySpark を使用して大規模なデータセットの取り込み、変換、分析を行うことができ、分散データ処理の操作に自信を持つことができるようになります。 Databricks 内では、ワークスペース内を移動し、クラスターを管理し、Delta テーブルを構築および管理する方法を理解しています。

ETL パイプラインの設計と実行、デルタ テーブルの最適化、スキーマ変更の管理、データ品質ルールの適用も可能です。 さらに、Lakeflow ジョブとパイプラインを使用してワークロードを調整する方法を学習し、探索から自動化されたワークフローに移行できるようにします。 最後に、Unity カタログ、Purview 統合、アクセス管理などのガバナンスとセキュリティ機能について理解を深め、運用環境に対応したデータ環境で効果的に運用できるように準備します。

前提条件

このラーニング パスを開始する前に、Python と SQL の基礎に慣れているはずです。 これには、単純な Python スクリプトを記述し、共通のデータ構造を操作できることや、データをフィルター処理、結合、集計するための SQL クエリの記述が含まれます。 CSV、JSON、Parquet などの一般的なファイル形式の基本的な理解は、データセットを操作する際にも役立ちます。

さらに、Azure portal と Azure Storage などのコア サービスに関する知識と、バッチ処理とストリーミング処理、構造化データと非構造化データなどのデータ概念の一般的な認識が重要です。 必須ではありませんが、Spark などのビッグ データ フレームワークに公開される前に、Jupyter Notebook の操作経験を持つ方が、Databricks への移行がよりスムーズになる可能性があります。

このラーニング パス内のモジュール

Azure Databricks は、Apache Spark を使用したデータ分析のためのスケーラブルなプラットフォームを提供するクラウド サービスです。

Azure Databricks を使用してデータ分析を実行する方法について学習します。 さまざまなデータ インジェスト方法と、Azure Data Lake や Azure SQL Database などのソースからのデータを統合する方法について確認します。 このモジュールでは、コラボレーション ノートブックを使用して探索的データ分析 (EDA) を実行し、データを視覚化、操作、調査して、パターン、異常、相関関係を明らかにします。

Azure Databricks は Apache Spark 上に構築されており、データ エンジニアやアナリストは Spark ジョブを実行して、大規模なデータの変換、分析、視覚化を行うことができます。

Delta Lake は Azure Databricks の中のデータ管理ソリューションであり、ACID トランザクション、スキーマ強制、タイム トラベルなどの機能によってデータの一貫性、整合性、バージョン管理を確実に実現します。

Lakeflow 宣言型パイプラインを構築すると、Azure Databricks の Delta Lake の高度な機能を使用して、リアルタイムでスケーラブルで信頼性の高いデータ処理が可能になります

Lakeflow ジョブを使用してワークロードをデプロイするには、複雑なデータ処理パイプライン、機械学習ワークフロー、分析タスクを調整および自動化する必要があります。 このモジュールでは、Databricks Lakeflow ジョブを使用してワークロードをデプロイする方法について説明します。