Anfügen und Verwalten eines Synapse Spark-Pools in Azure Machine Learning

Artikel
04/12/2024

GILT FÜR:Azure CLI ML-Erweiterung v2 (aktuell)Python SDK azure-ai-ml v2 (aktuell)

In diesem Artikel erfahren Sie, wie Sie einen Synapse Spark-Pool in Azure Machine Learning anfügen. Sie können einen Synapse Spark-Pool in Azure Machine Learning auf eine der folgenden Weisen anfügen:

Verwenden der Benutzeroberfläche von Azure Machine Learning Studio
Verwenden der Azure Machine Learning-CLI
Verwenden des Python SDK für Azure Machine Learning

Voraussetzungen

Ein Azure-Abonnement: Sollten Sie über kein Azure-Abonnement verfügen, können Sie ein kostenloses Konto erstellen, bevor Sie beginnen.
Ein Azure Machine Learning-Arbeitsbereich. Siehe Erstellen von Arbeitsbereichsressourcen.
Erstellen eines Azure Synapse Analytics-Arbeitsbereichs im Azure-Portal
Erstellen Sie einen Apache Spark-Pool mithilfe des Azure-Portals.

Anfügen eines Synapse Spark-Pools in Azure Machine Learning

Azure Machine Learning bietet verschiedene Möglichkeiten zum Anfügen und Verwalten eines Synapse Spark-Pools.

So fügen Sie einen Synapse Spark-Pool mit der Registerkarte „Studio-Compute“ an:

Wählen Sie im Bereich Verwalten des linken Bereichs die Option Compute aus.
Wählen Sie Angefügte Computeressourcen aus.
Wählen Sie auf dem Bildschirm Angefügte Computeressourcen die Option Neu aus, um die Optionen zum Anfügen verschiedener Computetypen anzuzeigen.
Wählen Sie Synapse Spark-Pool aus.

Der Bereich Synapse Spark-Pool anfügen öffnet sich auf der rechten Seite des Bildschirms. In diesem Bereich:

Geben Sie einen Namen ein, der auf den angefügten Synapse Spark-Pool in Azure Machine Learning Ressource verweist.
Wählen Sie im Dropdownmenü ein Azure-Abonnement aus.
Wählen Sie einen Synapse-Arbeitsbereich im Dropdownmenü aus.
Wählen Sie im Dropdownmenü einen Spark-Pool aus.
Schalten Sie die Option Verwaltete Identität zuweisen um, um sie zu aktivieren.
Wählen Sie einen verwalteten Identitätstyp aus, der mit diesem angefügten Synapse Spark-Pool verwendet werden soll.
Wählen Sie Aktualisieren aus, um den Anfügevorgang für den Synapse Spark-Pool abzuschließen.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Mit der Azure Machine Learning-CLI können wir intuitive YAML-Syntax und -Befehle verwenden, über die Befehlszeilenschnittstelle verwenden, um auf einen Synapse Spark-Pool zuzugreifen und ihn zu verwalten.

Um einen angefügten Synapse Spark-Pool mithilfe der YAML-Syntax zu definieren, sollte die YAML-Datei die folgenden Eigenschaften abdecken:

name – Name des angefügten Synapse Spark-Pools.
type – Legen Sie diese Eigenschaft auf synapsespark fest.
resource_id – Diese Eigenschaft sollte den Wert der Ressourcen-ID des Synapse Spark-Pools enthalten, der im Azure Synapse Analytics-Arbeitsbereich erstellt wurde. Die Azure-Ressourcen-ID umfasst Folgendes
- Azure-Abonnement-ID,
- Ressourcengruppenname,
- Name des Azure Synapse Analytics-Arbeitsbereichs und
- Name des Synapse Spark-Pools.
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity – Diese Eigenschaft definiert den Identitätstyp, der dem angefügten Synapse Spark-Pool zugewiesen werden soll. Sie kann einen dieser Werte annehmen:

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

Für die identity geben Sie user_assigned ein. Sie sollten auch eine Liste mit user_assigned_identities-Werten angeben. Jede vom Benutzer zugewiesene Identität sollte als Element der Liste deklariert werden, indem Sie den Wert resource_id der benutzerseitig zugewiesenen Identität verwenden. Die erste vom Benutzer zugewiesene Identität in der Liste wird standardmäßig verwendet, um einen Auftrag zu senden.

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

Die obigen YAML-Dateien können in dem Befehl az ml compute attach als Parameter --file verwendet werden. Ein Synapse Spark-Pool kann einem Azure Machine Learning-Arbeitsbereich in einer angegebenen Ressourcengruppe eines Abonnements mit dem Befehl az ml compute attach wie hier gezeigt angefügt werden:

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Dieses Beispiel zeigt die erwartete Ausgabe des obigen Befehls:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Wenn der angefügte Synapse Spark-Pool mit dem in der YAML-Spezifikationsdatei angegebenen Namen bereits im Arbeitsbereich vorhanden ist, aktualisiert die Befehlsausführung az ml compute attach den vorhandenen Pool mit den in der YAML-Spezifikationsdatei bereitgestellten Informationen. Sie können Folgendes aktualisieren:

Identitätstyp
Benutzerseitig zugewiesene Identitäten
tags

Werte über die YAML-Spezifikationsdatei

Führen Sie den Befehl az ml compute show aus, um Details eines angefügten Synapse Spark-Pools anzuzeigen. Übergeben Sie den Namen des angefügten Synapse Spark-Pools mit dem Parameter --name, wie gezeigt:

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Dieses Beispiel zeigt die erwartete Ausgabe des obigen Befehls:

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Verwenden Sie den Befehl az ml compute list, um eine Liste aller Computes anzuzeigen, einschließlich der angefügten Synapse Spark-Pools in einem Arbeitsbereich. Verwenden Sie den Namensparameter, um den Namen des Arbeitsbereichs wie gezeigt zu übergeben:

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Dieses Beispiel zeigt die erwartete Ausgabe des obigen Befehls:

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Das Azure Machine Learning Python SDK bietet praktische Funktionen zum Anfügen und Verwalten eines Synapse Spark-Pools mithilfe von Python-Code in Azure Machine Learning-Notebooks.

Um eine Synapse Compute-Instanz mithilfe des Python SDK anzufügen, erstellen Sie zuerst eine Instanz der azure.ai.ml.MLClient-Klasse. Dies bietet praktische Funktionen für die Interaktion mit Azure Machine Learning-Diensten. Im folgenden Codebeispiel wird azure.identity.DefaultAzureCredential zum Herstellen einer Verbindung mit einem Arbeitsbereich in der Ressourcengruppe eines angegebenen Azure-Abonnements verwendet. Definieren Sie im folgenden Codebeispiel den SynapseSparkCompute mit diesen Parametern:

name – Benutzerdefinierter Name des neuen angefügten Synapse Spark-Pools.
resource_id – Ressourcen-ID des Synapse Spark-Pools, der zuvor im Azure Synapse Analytics-Arbeitsbereich erstellt wurde

Ein azure.ai.ml.MLClient.begin_create_or_update()-Funktionsaufruf fügt den definierten Synapse Spark-Pool an den Azure Machine Learning-Arbeitsbereich an.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

Um einen Synapse Spark-Pool anzufügen, der systemseitig zugewiesene Identitäten verwendet, übergeben Sie IdentityConfiguration, wobei der Typ auf SystemAssigned festgelegt ist, als identity-Parameter der SynapseSparkCompute-Klasse. Dieser Codeschnipsel fügt einen Synapse Spark-Pool an, der systemseitig zugewiesene Identitäten verwendet:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Ein Synapse Spark-Pool kann auch eine benutzerseitig zugewiesene Identität verwenden. Für eine benutzerseitig zugewiesene Identität können Sie eine Definition für verwaltete Identitäten übergeben, indem Sie die IdentityConfiguration-Klasse als identity-Parameter der SynapseSparkCompute-Klasse verwenden. Legen Sie für die Definition der verwalteten Identität, die auf diese Weise verwendet wird, entsprechend type auf UserAssigned fest. Übergeben Sie außerdem einen user_assigned_identities-Parameter. Der Parameter user_assigned_identities ist eine Liste von Objekten der UserAssignedIdentity-Klasse. Die resource_id der benutzerseitig zugewiesenen Identität füllt jedes UserAssignedIdentity-Klassenobjekt auf. Dieser Codeschnipsel fügt einen Synapse Spark-Pool an, der benutzerseitig zugewiesene Identitäten verwendet:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Hinweis

Die azure.ai.ml.MLClient.begin_create_or_update()-Funktion fügt einen neuen Synapse Spark-Pool an, wenn ein Pool mit dem angegebenen Namen noch nicht im Arbeitsbereich vorhanden ist. Wenn jedoch bereits ein Synapse Spark-Pool mit diesem angegebenen Namen an den Arbeitsbereich angefügt ist, aktualisiert ein Aufruf der azure.ai.ml.MLClient.begin_create_or_update()-Funktion den vorhandenen angefügten Pool mit der neuen Identität bzw. den neuen Identitäten.

Hinzufügen von Rollenzuweisungen in Azure Synapse Analytics

Um sicherzustellen, dass der angefügte Synapse Spark-Pool ordnungsgemäß funktioniert, weisen Sie ihm die Administratorrolle über die Benutzeroberfläche von Azure Synapse Analytics Studio zu. Die folgenden Schritte veranschaulichen die Vorgehensweise:

Öffnen Sie Ihren Synapse-Arbeitsbereich im Azure-Portal.
Wählen Sie im linken Bereich Übersicht aus.
Wählen Sie Synapse Studio öffnen aus.
Wählen Sie im Azure Synapse Analytics Studio im linken Bereich Verwalten aus.
Wählen Sie Access Control im Abschnitt Sicherheit im linken Bereich aus, zweiter von links.
Wählen Sie Hinzufügen aus.
Auf der rechten Seite des Bildschirms wird das Fenster Rollenzuweisung hinzufügen geöffnet. In diesem Bereich:
1. Wählen Sie unter Bereich die Option Arbeitsbereichselementaus.
2. Wählen Sie im Dropdownmenü Elementtyp die Option Apache Spark-Pool aus.
3. Wählen Sie im Dropdownmenü Element Ihren Apache Spark-Pool aus.
4. Wählen Sie im Dropdownmenü Rolle die Option Synapse-Administrator aus.
5. Beginnen Sie im Suchfeld Benutzer auswählen mit der Eingabe des Namens Ihres Azure Machine Learning-Arbeitsbereichs. Es wird eine Liste der angefügten Synapse Spark-Pools angezeigt. Wählen Sie Ihren gewünschten Synapse Spark-Pool aus der Liste aus.
6. Wählen Sie Übernehmen.

Aktualisieren des Synapse Spark-Pools

Sie können den angefügten Synapse Spark-Pool über die Benutzeroberfläche von Azure Machine Learning Studio verwalten. Die Verwaltungsfunktionen für Spark-Pools umfassen Updates für zugeordnete verwaltete Identitäten für einen angefügten Synapse Spark-Pool. Sie können eine system- oder benutzerseitig zugewiesene Identität zuweisen, während Sie einen Synapse Spark-Pool aktualisieren. Sie sollten eine benutzerseitig zugewiesene verwaltete Identität im Azure-Portal erstellen, bevor Sie sie einem Synapse Spark-Pool zuweisen.

So aktualisieren Sie die verwaltete Identität für den angefügten Synapse Spark-Pool

Öffnen Sie die Seite Details für den Synapse Spark-Pool im Azure Machine Learning Studio.
Suchen Sie das Bearbeitungssymbol auf der rechten Seite des Abschnitts Verwaltete Identität aus.
Aktivieren Sie die Option Verwaltete Identität zuweisen, um eine verwaltete Identität zum ersten Mal zuzuweisen.
So weisen Sie eine systemseitig zugewiesene verwaltete Identität zu
1. Wählen Sie Systemseitig zugewiesen als Identitätstypaus.
2. Wählen Sie Aktualisieren aus.
So weisen Sie eine benutzerseitig zugewiesene verwaltete Identität zu
1. Wählen Sie Benutzerseitig zugewiesen als Identitätstypaus.
2. Wählen Sie im Dropdownmenü ein Azure-Abonnement aus.
3. Geben Sie die ersten Buchstaben des Namens der benutzerseitig zugewiesenen verwalteten Identität in das Feld, das den Text Nach Name suchen zeigt, ein. Eine Liste mit übereinstimmenden Namen der benutzerseitig zugewiesenen verwalteten Identität wird angezeigt. Wählen Sie die gewünschte benutzerseitig zugewiesene verwaltete Identität aus der Liste aus. Sie können mehrere benutzerseitig zugewiesene verwaltete Identitäten auswählen und sie dem angefügten Synapse Spark-Pool zuweisen.
4. Wählen Sie Aktualisieren aus.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Um die Identität zu aktualisieren, die einem angefügten Synapse Spark-Pool zugeordnet ist, führen Sie den Befehl az ml compute update mit den entsprechenden Parametern aus. Um eine systemseitig zugewiesene Identität zuzuweisen, legen Sie den --identity-Parameter wie gezeigt im Befehl auf SystemAssigned fest:

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

Dieses Beispiel zeigt die erwartete Ausgabe des obigen Befehls:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Um eine benutzerseitig zugewiesene Identität zuzuweisen, legen Sie den --identity-Parameter im Befehl auf fest UserAssigned. Darüber hinaus sollten Sie den --user-assigned-identities-Parameter wie unten gezeigt verwenden, um die Ressourcen-ID für die benutzerseitig zugewiesene Identität übergeben:

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

Dieses Beispiel zeigt die erwartete Ausgabe des obigen Befehls:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "location": "eastus2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

Hinweis

Der --user-assigned-identities-Parameter kann eine Liste von Ressourcen-IDs annehmen und einem angefügten Synapse Spark-Pool mehrere benutzerdefinierte Identitäten zuweisen. Die erste benutzerseitig zugewiesene Identität in der Liste wird standardmäßig für die Übermittlung eines Auftrags verwendet.

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Um die systemseitig zugewiesene Identität zu verwenden, übergeben Sie IdentityConfiguration, wobei der Typ auf SystemAssigned festgelegt ist, als identity-Parameter der SynapseSparkCompute-Klasse. Dieser Codeschnipsel aktualisiert einen Synapse Spark-Pool, um eine systemseitig zugewiesene Identität zu verwenden:

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Ein Synapse Spark-Pool kann auch eine benutzerseitig zugewiesene Identität verwenden. Für eine benutzerseitig zugewiesene Identität können Sie eine Definition für verwaltete Identitäten übergeben, indem Sie die IdentityConfiguration-Klasse als identity-Parameter der SynapseSparkCompute-Klasse verwenden. Legen Sie für die Definition der verwalteten Identität, die auf diese Weise verwendet wird, entsprechend type auf UserAssigned fest. Übergeben Sie außerdem einen user_assigned_identities-Parameter. Der Parameter user_assigned_identities ist eine Liste von Objekten der UserAssignedIdentity-Klasse. Die resource_id der benutzerseitig zugewiesenen Identität füllt jedes UserAssignedIdentity-Klassenobjekt auf. Dieser Codeschnipsel aktualisiert einen Synapse Spark-Pool, um eine benutzerseitig zugewiesene Identität zu verwenden:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Hinweis

Die azure.ai.ml.MLClient.begin_create_or_update()-Funktion fügt einen neuen Synapse Spark-Pool an, wenn ein Pool mit dem angegebenen Namen noch nicht im Arbeitsbereich vorhanden ist. Wenn jedoch bereits ein Synapse Spark-Pool mit dem angegebenen Namen an den Arbeitsbereich angefügt ist, aktualisiert ein Aufruf der azure.ai.ml.MLClient.begin_create_or_update()-Funktion den vorhandenen angefügten Pool mit der neuen Identität bzw. den neuen Identitäten.

Trennen des Synapse Spark-Pools

Möglicherweise möchten wir einen angefügten Synapse Spark-Pool trennen, um einen Arbeitsbereich zu bereinigen.

Die Azure Machine Learning Studio-Benutzeroberfläche bietet auch eine Möglichkeit, einen angefügten Synapse Spark-Pool zu trennen. Gehen Sie dazu wie folgt vor:

Öffnen Sie die Seite Details für den Synapse Spark-Pool im Azure Machine Learning Studio.
Wählen Sie Trennen aus, um den angefügten Synapse Spark-Pool zu trennen.

GILT FÜRAzure CLI ML-Erweiterung v2 (aktuell)

Ein angefügter Synapse Spark-Pool kann getrennt werden, indem der Befehl az ml compute detach mit dem Namen des Pools ausgeführt wird, der mit dem --name-Parameter übergeben wird, wie hier gezeigt:

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Dieses Beispiel zeigt die erwartete Ausgabe des obigen Befehls:

Are you sure you want to perform this operation? (y/n): y

GILT FÜR: Python SDK azure-ai-ml v2 (aktuell)

Wir verwenden einen MLClient.compute.begin_delete()-Funktionsaufruf. Übergeben Sie den name des angefügten Synapse Spark-Pools zusammen mit der Aktion Detach an die Funktion. Mit diesem Codeschnipsel wird ein Synapse Spark-Pool von einem Azure Machine Learning-Arbeitsbereich getrennt:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Serverloses Spark Compute in Azure Machine Learning

Einige Benutzerszenarien erfordern möglicherweise während einer Azure Machine Learning-Auftragsübermittlung Zugriff auf einen serverlosen Spark Compute Ressource, ohne dass ein Spark-Pool angefügt werden muss. Die Azure Synapse Analytics-Integration in Azure Machine Learning bietet auch eine serverlose Spark-Computeumgebung. Dies ermöglicht den Zugriff auf ein Spark Compute in einem Auftrag, ohne dass das Compute zunächst an einen Arbeitsbereich angehängt werden muss. Erfahren Sie mehr über das serverlose Spark Compute.

Anfügen und Verwalten eines Synapse Spark-Pools in Azure Machine Learning

Voraussetzungen

Anfügen eines Synapse Spark-Pools in Azure Machine Learning

Hinzufügen von Rollenzuweisungen in Azure Synapse Analytics

Aktualisieren des Synapse Spark-Pools

Trennen des Synapse Spark-Pools

Serverloses Spark Compute in Azure Machine Learning

Nächste Schritte

Zusätzliche Ressourcen