Azure Synapse Analytics を使用してデータ統合と分析ソリューションを設計します

完了

Azure Synapse Analytics は、ビッグ データ分析、エンタープライズ データ ストレージ、データ統合の機能を兼ね備えています。 このサービスを使用すると、サーバーレス データや大規模なデータに対してクエリを実行できます。 Azure Synapse では、データ インジェスト、探索、変換、管理がサポートされ、分析もサポートされるため、BI と機械学習に関するあらゆるニーズに対応できます。

Azure Synapse Analytics について知っておくべきこと

Azure Synapse Analytics によって、超並列処理 (MPP) アーキテクチャが実装され、これには次の特性があります。

  • Azure Synapse Analytics のアーキテクチャには、1 つの "制御ノード" と、複数の "コンピューティング ノード" のプールが含まれています。

    Diagram that shows the Azure Synapse Analytics architecture.

    制御ノードは、このアーキテクチャの頭脳です。 すべてのアプリケーションと対話するフロント エンドです。 コンピューティング ノードは計算能力を提供します。 処理されるデータは、ノード全体に均等に分散されます。

  • Transact-SQL ステートメントの形式でクエリを送信すると、Azure Synapse Analytics によって実行されます。

  • Azure Synapse では PolyBase というテクノロジが使用されており、これでリレーショナルと非リレーショナルのソースからのデータの取得とクエリが可能になります。 読み込んだデータを SQL テーブルとして Azure Synapse サービスの中で保存できます。

Azure Synapse Analytics のコンポーネント

Azure Synapse Analytics は次の 5 つの要素で構成されています。

Diagram that shows an overview of Azure Synapse Analytics capabilities.

  • Azure Synapse SQL プール: Synapse SQL には、ノードベースのアーキテクチャを使用して動作するサーバーレスと専用の両方のリソース モデルが用意されています。 予測可能なパフォーマンスとコストが求められる場合は、専用 SQL プールを作成できます。 不定期で計画外のワークロードについては、常に利用可能な、サーバーレス SQL エンドポイントを使用できます。
  • Azure Synapse Spark プール: このプールは、Apache Spark を実行してデータを処理するサーバーのクラスターです。 サポートされている 4 つの言語 (Python、Scala、SQL、および C# (.NET for Apache Spark を使用)) のいずれかを使用してデータ処理ロジックを記述します。 Apache Spark for Azure Synapse によって Apache Spark (オープン ソースのビッグ データ エンジン。データ準備、データ エンジニアリング、ETL、機械学習に使用されます) が統合されます。
  • Azure Synapse パイプライン: Azure Synapse パイプラインでは、Azure Data Factory の機能が適用されます。 パイプラインとは、クラウドベースの ETL およびデータ統合のサービスであり、これを利用すると、大規模なデータの移動と変換をオーケストレーションするためのデータドリブンのワークフローを作成できます。 データを転送時に変換するためのアクティビティを含めることも、複数のソースからのデータを結合することもできます。
  • Azure Synapse Link: このコンポーネントで、Azure Cosmos DB に接続できます。 これを使用すると、Azure Cosmos DB データベースに格納されているオペレーショナル データに対して準リアルタイムの分析を実行できます。
  • Azure Synapse Studio: この要素は Web ベースの IDE です。これを使用すると、Azure Synapse Analytics のすべての機能の作業を一元的に行うことができます。 Azure Synapse Studio を使用して、SQL プールや Spark プールの作成、パイプラインの定義と実行、および外部データ ソースへのリンクの構成を行うことができます。

分析のオプション

Azure Synapse Analytics では、さまざまな分析シナリオがサポートされています。 表を確認しながら、これらのシナリオがどのように Tailwind Traders という組織に当てはまるかを考えます。

分析 シナリオ 説明
記述的 状況 Azure Synapse では専用 SQL プール機能が適用されており、"今どうなっているか" という質問を分析するための永続化されたデータ ウェアハウスを作成できます。 サーバーレス SQL プールを利用すると、データ レイクに格納されているファイルからデータを準備して、データ ウェアハウスを対話形式で作成することができます。
Diagnostic 更新できないのはなぜですか? Azure Synapse の中のサーバーレス SQL プール機能を使用して、データ レイク内のデータを対話形式で探索できます。 サーバーレス SQL プールを利用すると、"なぜ" という質問を理解するのに役立つ可能性のあるその他のデータを、ユーザーがすばやく検索できるようになります。
予測的 何が起きる可能性があるか? Azure Synapse Analytics には Apache Spark エンジンと Azure Synapse Spark プールが統合されており、これらが予測的分析に使用されます。 このアクションと他のサービス、たとえば Azure Machine Learning Services や Azure Databricks との組み合わせは、"未来はどうなるか" という質問に答えるのに役立ちます。
処方的 To Do リスト 処方的分析をリアルタイムまたは準リアルタイムのデータに使用すると、"どのようなアクションを取るか" という質問に対する答えを特定するのに役立ちます。 Azure Synapse Analytics では、この機能が Apache Spark と Azure Synapse Link を通して、および Azure Stream Analytics などのストリーミング テクノロジの統合によって提供されています。

ビジネス シナリオ

会社が顧客に株式市場情報を提供するというシナリオを考察してみましょう。 あなたは、Tailwind Traders のインフラストラクチャをサポートするためにバッチとストリーム処理の組み合わせを提供する必要があります。 情報に基づいて瞬時に買いまたは売りの決定を下すために即断が求められる場合の、リアルタイムでの監視に役立てるために、秒単位の最新データが使用されることが考えられます。 履歴データは、パフォーマンスの傾向を把握するために同様に重要です。 生データのストリームと、このデータから導出された準備済みビジネス情報へのアクセスを提供するために、あなたはどのような種類のデータ ウェアハウスとデータ統合のソリューションを推奨しますか? Azure Synapse Analytics を使用すると、外部ソースからデータを取り込み、このデータを分析処理に適した形式に変換および集計できます。

Azure Data Factory か Azure Synapse Analytics かを選ぶ際に考慮すべき事項

次の表は、Azure Data Factory と Azure Synapse Analytics の使用に関するストレージ ソリューションの条件の比較です。 条件を確認して、どちらのソリューションが Tailwind Traders に最適かを考えてください。

比較 Azure Data Factory Azure Synapse Analytics
データ共有 異なるデータ ファクトリ間でデータを共有できる サポートされていません
ソリューション テンプレート ソリューション テンプレートが Azure Data Factory テンプレート ギャラリーで提供される ソリューション テンプレートが Synapse ワークスペース ナレッジ センターで提供される
統合ランタイム リージョン間フロー リージョン間データ フローがサポートされている サポートされていません
データの監視 データ監視が Azure Monitor と統合されている 診断ログを Azure Monitor で利用できる
データ フローについて Spark ジョブを監視する サポートされていません Synapse Spark プールを使用してデータ フローについて Spark ジョブを監視できる

Azure Synapse Analytics は、他にも多くのシナリオに最適なソリューションです。 次のオプションを検討してください。

  • データ ソースの多様性について考えます。 コードフリー ETL およびデータ フロー アクティビティに Azure Synapse Analytics を使用する、さまざまなデータ ソースがあるとき。
  • 機械学習について考えます。 Apache Spark を使用して機械学習ソリューションを実装する必要がある場合は、Azure Synapse Analytics を使用すると AzureML の組み込みサポートを利用できます。
  • データ レイク統合について考えます。 既存のデータがデータ レイク上に格納されていて、Azure Data Lake やその他の入力ソースとの統合が必要な場合は、Azure Synapse Analytics を利用すると、この 2 つのコンポーネント間のシームレスな統合が実現します。
  • リアルタイム分析について考えます。 リアルタイム分析が必要な場合は、Azure Synapse Link などの機能を使用すると、データをリアルタイムで分析して分析情報を提供することができます。