Azure Databricks を使用してデータ統合と分析ソリューションを設計する

4 分

Azure Databricks はフルマネージドでクラウドベースのビッグデータおよび機械学習プラットフォームであり、開発者が AI とイノベーションを加速できるようにします。 Azure Databricks を利用すると、データサイエンスとエンジニアリングのチームがビッグデータ処理と機械学習を単一のプラットフォームで行うことができます。 Azure Databricks のマネージド Apache Spark プラットフォームで、大規模な Spark ワークロードの実行がシンプルになります。

Azure Databricks について知っておくべきこと

Azure Databricks は完全に Apache Spark に基づいているため、このオープンソースのクラスターコンピューティングフレームワークに既に精通しているユーザーに最適なツールです。統合分析エンジンとして、ビッグデータ処理専用に設計されています。データサイエンティストは、SQL、Java、Python、R、Scala などのコア言語に対応している組み込みのコア API を利用できます。

Azure Databricks には、コントロールプレーンとデータプレーンがあります。

コントロールプレーン: Databricks のジョブ、ノートブックとクエリ結果、およびクラスターマネージャーをホストします。コントロールプレーンには、Web アプリケーション、Hive メタストア、およびセキュリティアクセス制御リスト (ACL)、ユーザーセッションもあります。これらのコンポーネントは、Microsoft が Azure Databricks と協力して管理しており、利用者の Azure サブスクリプション内には存在しません。
データプレーン: ワークスペース内でホストされている Azure Databricks ランタイムクラスターがすべて含まれています。すべてのデータ処理およびストレージは、お客様のサブスクリプション内に存在します。 Microsoft/Databricks によって管理されるサブスクリプション内でデータ処理が行われることはありません。

Azure Databricks でデータ集中型アプリケーションを開発するための環境は次の 3 つがあります。

Databricks SQL: Azure Databricks SQL は、SQL クエリをデータレイクに対して実行するアナリストのための使いやすいプラットフォームです。複数の種類の視覚化を作成してクエリ結果をさまざまな視点から探索することや、ダッシュボードを構築して共有することができます。
Databricks Data Science & Engineering:Azure Databricks Data Science & Engineering は、データエンジニア、データサイエンティスト、機械学習エンジニアの間のコラボレーションを可能にする対話型の "ワークスペース" です。ビッグデータパイプラインのデータ (生または構造化) は、Azure Data Factory を介してバッチで Azure に取り込まれるか、Apache Kafka、Azure Event Hubs、または Azure IoT Hub を使って凖リアルタイムでストリーミングされます。このデータは、長期永続保管のためのデータレイクに到達します。これは Azure Blob Storage または Azure Data Lake Storage の中にあります。分析ワークフローの中で、Azure Databricks を使用して複数のデータソースからデータを読み取り、Spark を使用して画期的な分析情報へと変えることができます。
Databricks Machine Learning: Azure Databricks Machine Learning は、統合型でエンドツーエンドの機械学習環境です。実験追跡、モデルのトレーニング、機能の開発と管理、機能とモデルの提供のためのマネージドサービスが組み込まれています。

ビジネスシナリオ

Tailwind Traders の重機製造部門のシナリオを分析してみましょう。 Tailwind Traders は、ビッグデータの処理に Azure のクラウドサービスを使用しています。バッチデータとストリーミングデータの両方を扱っています。この部門に所属するデータエンジニア、データサイエンティスト、データアナリストが共同作業して、インサイトに満ちたレポートを迅速に、多くの利害関係者向けに作成しています。ビッグデータの要件を満たすために、あなたは Azure Databricks を推奨して Data Science and Engineering 環境を実装する予定です。

では、なぜ Azure Databricks がこれらの要件を満たすのに適切な選択肢となるかを確認しましょう。

Azure Databricks は Apache Spark に基づく統合型の分析 "ワークスペース" であり、これを利用するとさまざまなユーザーの間のコラボレーションが可能になります。
Spark のコンポーネント (Spark SQL や Dataframes など) が使用されているため、Azure Databricks で構造化データを扱うことができます。ストリーミングデータを処理するために、Kafka や Flume などのリアルタイムデータインジェストツールと統合されています。
安全なデータ統合機能が Spark 上に構築されているため、データを集中化しなくてもまとめることができます。データサイエンティストはデータを数ステップで視覚化でき、Matplotlib、ggplot、d3 などの使い慣れたツールを活用できます。
Azure Databricks ランタイムによってインフラストラクチャの複雑さが抽象化され、データインフラストラクチャをセットアップして構成するための専門知識の必要性もなくなります。ユーザーは、既に身につけた Python、Scala、R の言語スキルを使ってデータを探索できます。
Azure Databricks は Azure のデータベースとストア (Azure Synapse Analytics、Azure Cosmos DB、Azure Data Lake Storage、Azure Blob Storage など) と深く統合されています。多様なデータストアプラットフォームがサポートされているため、Tailwind Traders のビッグデータストレージのニーズを満たすことができます。
Power BI と統合されているため、Tailwind Traders の要件の 1 つである、迅速で有意義な分析情報が可能になります。
Azure Databricks SQL は適切な選択肢ではありません。なぜなら非構造化データを扱うことができないからです。
Azure Databricks Machine Learning も環境の選択肢として適切ではありません。なぜなら、このシナリオでは機械学習は求められていないからです。

Azure Databricks を使用する際の考慮事項

Azure Databricks は、多数のシナリオのソリューションとして使用できます。このサービスが Tailwind Traders のデータ統合ソリューションにどのように役立つのかを考えてみましょう。

データサイエンスのデータ準備について考えます。複雑な非構造化データのクラスターを作成し、クローンし、編集します。このデータクラスターを具体的なジョブに変換します。結果をデータサイエンティストとデータアナリストに渡してレビューを受けます。
データ内のインサイトについて考えます。 Azure Databricks を実装してレコメンデーションエンジン、チャーン分析、侵入検出を構築します。
データと分析のチーム全体の生産性について考えます。データエンジニア、アナリスト、サイエンティストのためのコラボレーション環境と共有ワークスペースを作ります。共有ワークスペースを使用して、チームどうしがデータサイエンスのライフサイクル全体にわたって共同作業できるので、貴重な時間とリソースを節約するのに役立ちます。
ビッグデータのワークロードについて考えます。 Azure Data Lake とエンジンを活用して、ビッグデータワークロードのための最高のパフォーマンスと信頼性を実現します。手間のかからないマルチステップデータパイプラインを作成します。
機械学習プログラムについて考えます。統合型でエンドツーエンドの機械学習環境を活用します。実験追跡、モデルのトレーニング、機能の開発と管理、機能とモデルの提供のためのマネージドサービスが組み込まれています。

続行

Azure Databricks について知っておくべきこと

ビジネス シナリオ

Azure Databricks を使用する際の考慮事項

フィードバック

ビジネスシナリオ