Azure でのデータ分析とレポート テクノロジの選択

ほとんどのビッグ データ ソリューションの目的は、分析とレポートによってデータに関する実用的な情報を提供することにあります。 これには、事前に構成されたレポートと視覚化や、対話型データ探索が含まれます。

データ分析テクノロジを選ぶときのオプション

Azure での分析、視覚化、レポートには、ニーズに応じていくつかのオプションがあります。

Power BI

Power BI はビジネス分析ツールのスイートです。 何百ものデータ ソースに接続でき、アド ホック分析に使用できます。 現在使用可能なデータ ソースについては、こちらの一覧をご覧ください。 Power BI Embedded は、追加のライセンスを必要とせずに独自のアプリケーション内で Power BI を統合する場合に使用します。

組織では、Power BI を使用してレポートを作成し、組織に公開できます。 すべてのユーザーは、ガバナンスとセキュリティが組み込まれたパーソナライズされたダッシュボードを作成できます。 Power BI は、Azure Active Directory (Azure AD) を使用して、Power BI サービスにログインするユーザーを認証し、ユーザーが認証を必要とするリソースへのアクセスを試みるたびに Power BI ログイン資格情報を使用します。

Jupyter Notebooks

Jupyter Notebook は、データ サイエンティストが Python、Scala、または R コードおよびマークダウン テキストを含む "ノートブック" ファイルを作成できるブラウザー ベースのシェルを提供し、コードと結果を 1 つのドキュメントで共有および文書化して効果的に共同作業できるようにします。

Spark や Hadoop など、さまざまな HDInsight クラスターのほとんどは、データと対話し、処理するジョブを送信するために、Jupyter Notebook で事前構成されています。 使用する HDInsight クラスターの種類に応じて、コードの解釈と実行用に 1 つまたは複数のカーネルが提供されます。 たとえば、HDInsight 上の Spark クラスターは、Spark エンジンを使用して Python または Scala コードを実行するために選べる Spark 関連のカーネルを提供します。

Jupyter Notebook では、Power BI などの BI/レポート ツールでより高度な視覚化を構築する前にデータを分析、視覚化、処理するための優れた環境が提供されます。

Zeppelin Notebook

Zeppelin Notebook は、ブラウザー ベース シェルのもう 1 つのオプションであり、機能は Jupyter に似ています。 一部の HDInsight クラスターは Zeppelin Notebook で事前構成されています。 ただし、HDInsight 対話型クエリ (Hive LLAP) クラスターを使用する場合、Zeppelin は現在、対話型 Hive クエリの実行に使用できる唯一のノートブックです。 また、ドメイン参加済み HDInsight クラスターを使用する場合、Zeppelin Notebook は、ノートブックおよび基になる Hive テーブルへのアクセスを制御するために異なるユーザー ログインを割り当てることができる唯一の種類です。

Microsoft Azure Notebooks

Azure Notebooks は、オンライン Jupyter Notebook ベースのサービスであり、データ サイエンティストがクラウドベースのライブラリで Jupyter Notebook を作成、実行、共有できるようにします。 Azure Notebooks は Python 2、Python 3、F# および R の実行環境を提供し、ggplot、matplotlib、bokeh、seaborn など、データの視覚化用の複数のグラフ ライブラリを提供します。

クラスターの既定のストレージ アカウントに接続される HDInsight クラスターで実行される Jupyter Notebook とは異なり、Azure Notebooks ではデータは提供されません。 オンライン ソースからのデータのダウンロード、Azure Blob や Table Storage との対話、SQL データベースへの接続、Azure Data Factory のコピー ウィザードを使用したデータの読み込みなど、さまざまな方法でデータを読み込む必要があります。

主な利点:

  • 無料のサービスで、Azure サブスクリプションは必要ありません。
  • Jupyter やサポートする R または Python ディストリビューションをローカルにインストールする必要はありません。ブラウザーだけを使用します。
  • 独自のオンライン ライブラリを管理し、任意のデバイスからアクセスできます。
  • ノートブックをコラボレーターと共有できます。

考慮事項:

  • オフラインのときは、ノートブックにアクセスできません。
  • 無料のノートブック サービスの制限付き処理機能は、大規模または複雑なモデルのトレーニングに不十分な場合があります。

主要な選択条件

選択肢を絞り込むために、まず次の質問に答えてください。

  • 多数のデータ ソースに接続して、ドメイン全体に分散したデータのレポートを作成する一元的な場所を提供する必要がありますか。 その場合は、数百のデータ ソースに接続できるオプションを選びます。

  • 動的視覚化を外部 Web サイトまたはアプリケーションに埋め込みますか? その場合は、埋め込み機能を提供するオプションを選びます。

  • オフライン中に視覚化とレポートをデザインしますか。 答えが「はい」の場合は、オフライン機能があるオプションを選びます。

  • 大規模または複雑な AI モデルをトレーニングしたり非常に大規模なデータ セットを操作したりするために高い処理能力が必要ですか。 答えが「はい」の場合は、ビッグ データ クラスターに接続できるオプションを選びます。

機能のマトリックス

次の表は、機能の主な相違点をまとめたものです。

一般的な機能

機能 Power BI Jupyter Notebooks Zeppelin Notebook Microsoft Azure Notebooks
高度な処理のためのビッグ データ クラスターへの接続 はい はい はい いいえ
管理されたサービス はい はい 1 はい 1 はい
数百のデータ ソースへの接続 はい いいえ いいえ いいえ
オフライン機能 はい 2 いいえ いいえ いいえ
埋め込み機能 はい いいえ いいえ いいえ
データの自動更新 はい いいえ いいえ いいえ
多数のオープン ソース パッケージへのアクセス いいえ はい 3 はい 3 はい 4
データ変換/クレンジング オプション Power Query、R Python、R、Julia、Scala などの 40 言語 Python、JDBC、R などの 20 を超えるインタープリター Python、F#、R
価格 無料の Power BI Desktop (作成) については、ホスティング オプションの料金をご覧ください Free Free Free
マルチユーザー コラボレーション はい はい (共有または JupyterHub などのマルチユーザー サーバーを使用) はい はい (共有を使用)

[1] 管理される HDInsight クラスターの一部として使用する場合。

[2] Power BI Desktop を使用する場合。

[2] コミュニティから提供されたパッケージは Maven リポジトリで検索できます。

[3] pip または conda を使用して Python パッケージをインストールできます。 R パッケージは CRAN または GitHub からインストールできます。 F# のパッケージは、パケット依存関係マネージャーを使用して Nuget.org 経由でインストールできます。

共同作成者

この記事は、Microsoft によって保守されています。 当初の寄稿者は以下のとおりです。

プリンシパル作成者: