クイックスタート:

Azure Synapse Analytics には、データの取り込み、変換、モデル化、分析、および提供に役立つさまざまな分析エンジンが用意されています。 Apache Spark プールは、オープンソースのビッグ データ コンピューティング機能を提供します。 お使いの Synapse ワークスペースに Apache Spark プールを作成した後、データを読み込み、モデル化し、処理し、提供して分析情報を得ることができます。

このクイックスタートでは、Synapse Studio を使用して Synapse ワークスペースで Apache Spark プールを作成する手順を説明します。

重要

Spark インスタンスの料金は、それを使用しているかどうかに関係なく、分単位で課金されます。 必ず、Spark インスタンスの使用を終了した後にシャットダウンするか、短いタイムアウトを設定してください。 詳しくは、この記事の「リソースのクリーンアップ」をご覧ください。

Azure サブスクリプションをお持ちでない場合は、開始する前に無料アカウントを作成してください。

前提条件

Azure portal にサインインする

Azure ポータル

  1. Synapse ワークスペースに移動します。ここでは、検索バーにサービス名 (またはリソース名を直接) 入力して、Apache Spark プールを作成します。 Screenshot from the Azure portal of the search bar with Synapse workspaces typed in.

  2. ワークスペースの一覧で、開くワークスペースの名前 (または名前の一部) を入力します。 この例では、contosoanalytics という名前のワークスペースを使用します。 Screenshot from the Azure portal of the list of Synapse workspaces filtered to show those containing the name Contoso.

Synapse Studio を起動する

ワークスペースの概要から [Workspace web URL](ワークスペース Web URL) を選択して Synapse Studio を開きます。

Screenshot from the Azure portal of a Synapse workspace overview with Launch Synapse Studio highlighted.

Synapse Studio で Apache Spark プールを作成する

重要

Azure Synapse Runtime for Apache Spark 2.4 は非推奨となっており、2023 年 9 月以降、正式にはサポートされていません。 Spark 3.1Spark 3.2 もサポート終了が発表された場合、お客様には Spark 3.3 に移行することをお勧めします

  1. Synapse Studio のホーム ページで、 [管理] アイコンを選択して、左側のナビゲーションの管理ハブに移動します。 Screenshot from the Azure portal of the Synapse Studio home page with Management Hub section highlighted.

  2. 管理ハブで、 [Apache Spark プール] セクションに移動して、ワークスペースで現在使用可能な Apache Spark プールの一覧を表示します。 Screenshot from the Azure portal of the Synapse Studio management hub with Apache Spark pools navigation selected.

  3. [+ 新規] を選択します。新しい Apache Spark プールの作成ウィザードが表示されます。

  4. [基本] タブで、以下の詳細を入力します。

    設定 提案された値 説明
    [Apache Spark pool name](Apache Spark プール名) 有効なプール名 (contosospark など) これは、Apache Spark プールの名前です。
    ノード サイズ Small (4 vCPU / 32 GB) (S (4 vCPU/32 GB)) このクイックスタートのコストを削減するために、最小サイズに設定します
    Autoscale 無効 このクイックスタートでは、自動スケーリングは必要ありません
    [Number of nodes](ノードの数) 8 このクイックスタートでは、コストを制限するために小さいサイズを使用します
    エグゼキューターを動的に割り当てる 無効 この設定は、Spark アプリケーションのエグゼキューターの割り当てに対する Spark 構成の動的割り当てプロパティにマップされます。 このクイックスタートでは、自動スケーリングは必要ありません。

    Screenshot from the Azure portal of the Basics for Synapse Studio new Apache Spark pool.

    重要

    Apache Spark プールで使用できる名前には特定の制限があります。 名前は、文字または数字のみを含み、15 文字以下である必要があります。さらに、文字で始まり、予約語を含まず、ワークスペース内で一意である必要があります。

  5. 次のタブの [追加設定] では、すべての設定を既定値のままにします。

  6. [タグ] を選択します。 Azure タグの使用を検討します。 たとえば、リソースを作成したユーザーを識別する "Owner" または "CreatedBy" タグ、このリソースが運用や開発などの環境にあるかどうかを識別する "Environment" タグなどです。詳細については、「Azure リソースの名前付けおよびタグ付けの戦略を作成する」を参照してください。 準備ができたら、[確認と作成] を選択します。

  7. [確認と作成] タブで、前に入力した内容に基づいて詳細に間違いがないことを確認し、 [作成] をクリックします。

    Screenshot from the Azure portal of the Create Synapse Studio new Apache Spark pool.

  8. Apache Spark プールのプロビジョニング プロセスが開始されます。

  9. プロビジョニングが完了すると、新しい Apache Spark プールが一覧に表示されます。

    Screenshot from the Azure portal of the Synapse Studio new Apache Spark pool list.

Synapse Studio を使用して Apache Spark プールのリソースをクリーンアップする

次の手順では、Synapse Studio を使用してワークスペースから Apache Spark プールを削除します。

警告

Spark プールを削除すると、ワークスペースから分析エンジンが削除されます。 プールに接続することはできなくなります。また、この Spark プールを使用するすべてのクエリ、パイプライン、ノートブックは動作しなくなります。

Apache Spark プールを削除する場合は、次の手順を行います。

  1. Synapse Studio で管理ハブにある Apache Spark プールに移動します。

  2. 削除する Apache プールの横にある省略記号 (この場合は、contosospark) を選択して、Apache Spark プールのコマンドを表示します。

    Screenshot from the Azure portal of a list of Apache Spark pools, with the recently created pool selected.

  3. 削除を選択します。

  4. 削除を確認し、 [削除] を押します。

  5. プロセスが正常に完了すると、Apache Spark プールはワークスペース リソースの一覧に表示されなくなります。