Collegare e gestire un pool di Spark Synapse in Azure Machine Learning

Articolo
04/12/2024

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)Python SDK azure-ai-ml v2 (corrente)

Questo articolo descrive come collegare un pool di Spark Synapse in Azure Machine Learning. È possibile collegare un pool di Spark Synapse in Azure Machine Learning in uno dei modi seguenti:

Uso dell'interfaccia utente di studio di Azure Machine Learning
Uso dell'interfaccia della riga di comando di Azure Machine Learning
Uso di Azure Machine Learning Python SDK

Prerequisiti

Una sottoscrizione di Azure; se non si ha una sottoscrizione di Azure, creare un account gratuito prima di iniziare.
Un'area di lavoro di Azure Machine Learning. Consultare Creare le risorse dell'area di lavoro.
Creare un'area di lavoro di Azure Synapse Analytics nel portale di Azure.
Creare un pool di Apache Spark usando il portale di Azure.

Collegare un pool di Spark Synapse in Azure Machine Learning

Azure Machine Learning offre diversi modi per collegare e gestire un pool di Synapse Spark.

Per collegare un pool di Spark Synapse con la scheda Calcolo di Studio:

Nella sezione Gestisci del riquadro sinistro selezionare Calcolo.
Selezionare Calcolo collegato.
Nella schermata Calcolo collegato selezionare Nuovo per visualizzare le opzioni per collegare diversi tipi di calcolo.
Selezionare Pool di Spark synapse.

Il pannello Attach Synapse Spark pool (Collega pool di Spark Synapse) si apre sul lato destro dello schermo. In questo pannello:

Immettere un nome, che fa riferimento al pool di Spark di Synapse collegato all'interno della risorsa di Azure Machine Learning.
Selezionare una sottoscrizione di Azure dal menu a discesa.
Selezionare un'area di lavoro synapse dal menu a discesa.
Selezionare un pool di Spark dal menu a discesa.
Attivare o disattivare l'opzione Assegna un'identità gestita per abilitarla.
Selezionare un tipo di identità gestita da usare con questo pool di Spark synapse collegato.
Selezionare Aggiorna per completare il processo di collegamento del pool di Spark synapse.

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Con l'interfaccia della riga di comando di Azure Machine Learning è possibile usare sintassi e comandi YAML intuitivi dall'interfaccia della riga di comando per collegare e gestire un pool di Synapse Spark.

Per definire un pool di Spark Synapse collegato usando la sintassi YAML, il file YAML deve coprire queste proprietà:

name : nome del pool di Spark synapse collegato.
type : impostare questa proprietà su synapsespark.
resource_id : questa proprietà deve fornire il valore id risorsa del pool di Synapse Spark creato nell'area di lavoro Azure Synapse Analytics. L'ID risorsa di Azure include
- ID sottoscrizione di Azure,
- nome gruppo di risorse,
- Nome dell'area di lavoro di Azure Synapse Analytics e
- nome del pool di Spark synapse.
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity : questa proprietà definisce il tipo di identità da assegnare al pool di Spark synapse collegato. Può accettare uno di questi valori:

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

Per il identity tipo user_assigned, è necessario specificare anche un elenco di user_assigned_identities valori. Ogni identità assegnata dall'utente deve essere dichiarata come elemento dell'elenco, usando il resource_id valore dell'identità assegnata dall'utente. La prima identità assegnata dall'utente nell'elenco viene usata per inviare un processo per impostazione predefinita.

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

I file YAML precedenti possono essere usati nel az ml compute attach comando come --file parametro . Un pool di Spark Synapse può essere collegato a un'area di lavoro di Azure Machine Learning, in un gruppo di risorse specificato di una sottoscrizione, con il az ml compute attach comando come illustrato di seguito:

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Questo esempio mostra l'output previsto del comando precedente:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Se il pool di Spark synapse collegato, con il nome specificato nel file di specifica YAML, esiste già nell'area di lavoro, az ml compute attach l'esecuzione dei comandi aggiorna il pool esistente con le informazioni fornite nel file di specifica YAML. È possibile aggiornare

tipo di identità
identità assegnate dall'utente
tag

valori tramite il file di specifica YAML.

Per visualizzare i dettagli di un pool di Spark synapse collegato, eseguire il az ml compute show comando . Passare il nome del pool di Spark Synapse collegato con il --name parametro , come illustrato di seguito:

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Questo esempio mostra l'output previsto del comando precedente:

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Per visualizzare un elenco di tutti i calcoli, inclusi i pool di Spark di Synapse collegati in un'area di lavoro, usare il az ml compute list comando . Usare il parametro name per passare il nome dell'area di lavoro, come illustrato di seguito:

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Questo esempio mostra l'output previsto del comando precedente:

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Azure Machine Learning Python SDK offre utili funzioni per il collegamento e la gestione del pool di Spark synapse, usando il codice Python nei notebook di Azure Machine Learning.

Per collegare un ambiente di calcolo Synapse usando Python SDK, creare prima di tutto un'istanza della classe azure.ai.ml.MLClient. Ciò offre funzioni utili per l'interazione con i servizi di Azure Machine Learning. L'esempio di codice seguente usa azure.identity.DefaultAzureCredential per connettersi a un'area di lavoro nel gruppo di risorse di una sottoscrizione di Azure specificata. Nell'esempio di codice seguente definire SynapseSparkCompute con questi parametri:

name : nome definito dall'utente del nuovo pool di Spark di Synapse collegato.
resource_id - ID risorsa del pool di Spark di Synapse creato in precedenza nell'area di lavoro di Azure Synapse Analytics

Una chiamata di funzione azure.ai.ml.MLClient.begin_create_or_update() collega il pool di Spark Synapse definito all'area di lavoro di Azure Machine Learning.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

Per collegare un pool di Spark Synapse che usa l'identità assegnata dal sistema, passare IdentityConfiguration, con tipo impostato su SystemAssigned, come identity parametro della SynapseSparkCompute classe . Questo frammento di codice collega un pool di Spark Synapse che usa l'identità assegnata dal sistema:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Un pool di Spark synapse può anche usare un'identità assegnata dall'utente. Per un'identità assegnata dall'utente, è possibile passare una definizione di identità gestita, usando la classe IdentityConfiguration , come identity parametro della SynapseSparkCompute classe . Per la definizione dell'identità gestita usata in questo modo, impostare su typeUserAssigned. Inoltre, passare un user_assigned_identities parametro. Il parametro user_assigned_identities è un elenco di oggetti della classe UserAssignedIdentity. L'oggetto resource_id dell'identità assegnata dall'utente popola ogni UserAssignedIdentity oggetto classe. Questo frammento di codice collega un pool di Synapse Spark che usa un'identità assegnata dall'utente:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Nota

La azure.ai.ml.MLClient.begin_create_or_update() funzione collega un nuovo pool di Spark Synapse, se un pool con il nome specificato non esiste già nell'area di lavoro. Tuttavia, se un pool di Synapse Spark con tale nome specificato è già collegato all'area di lavoro, una chiamata alla azure.ai.ml.MLClient.begin_create_or_update() funzione aggiornerà il pool collegato esistente con la nuova identità o identità.

Aggiungere assegnazioni di ruolo in Azure Synapse Analytics

Per assicurarsi che il pool di Spark di Synapse collegato funzioni correttamente, assegnarvi il ruolo Amministrazione istrator dall'interfaccia utente di Azure Synapse Analytics Studio. Questi passaggi illustrano come eseguire questa operazione:

Aprire l'area di lavoro di Synapse in portale di Azure.
Nel riquadro sinistro selezionare Panoramica.
Selezionare Apri Synapse Studio.
In Azure Synapse Analytics Studio selezionare Gestisci nel riquadro sinistro.
Selezionare Controllo di accesso nella sezione Sicurezza del riquadro sinistro, seconda a sinistra.
Selezionare Aggiungi.
Il pannello Aggiungi assegnazione di ruolo verrà aperto sul lato destro della schermata. In questo pannello:
1. Selezionare Elemento area di lavoro per Ambito.
2. Nel menu a discesa Tipo di elemento selezionare Pool di Apache Spark.
3. Nel menu a discesa Elemento selezionare il pool di Apache Spark.
4. Nel menu a discesa Ruolo selezionare Synapse Amministrazione istrator.
5. Nella casella di ricerca Selezionare l'utente iniziare a digitare il nome dell'area di lavoro di Azure Machine Learning. Viene visualizzato un elenco di pool di Spark synapse collegati. Selezionare il pool di Spark di Synapse desiderato nell'elenco.
6. Selezionare Applica.

Aggiornare il pool di Spark di Synapse

È possibile gestire il pool di Spark synapse collegato dall'interfaccia utente di studio di Azure Machine Learning. La funzionalità di gestione del pool di Spark include gli aggiornamenti delle identità gestite associati per un pool di Spark Synapse collegato. È possibile assegnare un'identità assegnata dal sistema o assegnata dall'utente durante l'aggiornamento di un pool di Spark synapse. È consigliabile creare un'identità gestita assegnata dall'utente in portale di Azure prima di assegnarla a un pool di Synapse Spark.

Per aggiornare l'identità gestita per il pool di Spark synapse collegato:

Aprire la pagina Dettagli per il pool di Spark di Synapse nel studio di Azure Machine Learning.
Trovare l'icona di modifica, che si trova sul lato destro della sezione Identità gestita.
Per assegnare un'identità gestita per la prima volta, impostare Assegna un'identità gestita per abilitarla.
Per assegnare un'identità gestita assegnata dal sistema:
1. Selezionare Assegnata dal sistema come tipo di identità.
2. Selezionare Aggiorna.
Per assegnare un'identità gestita assegnata dall'utente:
1. Selezionare Assegnata dall'utente come tipo di identità.
2. Selezionare una sottoscrizione di Azure dal menu a discesa.
3. Digitare le prime lettere del nome dell'identità gestita assegnata dall'utente nella casella che mostra il testo Cerca per nome. Viene visualizzato un elenco con nomi di identità gestite assegnati dall'utente corrispondenti. Selezionare l'identità gestita assegnata dall'utente desiderata nell'elenco. È possibile selezionare più identità gestite assegnate dall'utente e assegnarle al pool di Spark synapse collegato.
4. Selezionare Aggiorna.

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Per aggiornare l'identità associata a un pool di Spark di Synapse collegato, eseguire il az ml compute update comando con i parametri appropriati. Per assegnare un'identità assegnata dal sistema, impostare il --identity parametro nel comando su SystemAssigned, come illustrato di seguito:

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

Questo esempio mostra l'output previsto del comando precedente:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Per assegnare un'identità assegnata dall'utente, impostare il parametro --identity nel comando su UserAssigned. È inoltre consigliabile usare il --user-assigned-identities parametro per passare l'ID risorsa per l'identità assegnata dall'utente, come illustrato di seguito:

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

Questo esempio mostra l'output previsto del comando precedente:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "location": "eastus2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

Nota

Il parametro --user-assigned-identities può accettare un elenco di ID risorsa e assegnare più identità definite dall'utente a un pool di Spark Synapse collegato. La prima identità assegnata dall'utente nell'elenco verrà usata per l'invio di un processo per impostazione predefinita.

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Per usare l'identità assegnata dal sistema, passare IdentityConfiguration, con tipo impostato su SystemAssigned, come identity parametro della SynapseSparkCompute classe . Questo frammento di codice aggiorna un pool di Spark Synapse per usare un'identità assegnata dal sistema:

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Un pool di Spark synapse può anche usare un'identità assegnata dall'utente. Per un'identità assegnata dall'utente, è possibile passare una definizione di identità gestita, usando la classe IdentityConfiguration , come identity parametro della SynapseSparkCompute classe . Per la definizione dell'identità gestita usata in questo modo, impostare su typeUserAssigned. Inoltre, passare un user_assigned_identities parametro. Il parametro user_assigned_identities è un elenco di oggetti della classe UserAssignedIdentity. L'oggetto resource_iddell'identità assegnata dall'utente popola ogni UserAssignedIdentity oggetto classe. Questo frammento di codice aggiorna un pool di Synapse Spark per usare un'identità assegnata dall'utente:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Nota

Se un pool con il nome specificato non esiste già nell'area di lavoro, la azure.ai.ml.MLClient.begin_create_or_update() funzione allegherà un nuovo pool di Spark Synapse. Tuttavia, se un pool di Synapse Spark, con il nome specificato, è già collegato all'area di lavoro, una azure.ai.ml.MLClient.begin_create_or_update() chiamata di funzione aggiornerà il pool collegato esistente, con la nuova identità o identità.

Scollegare il pool di Spark di Synapse

Potrebbe essere necessario scollegare un pool di Spark Synapse collegato per pulire un'area di lavoro.

L'interfaccia utente studio di Azure Machine Learning consente anche di scollegare un pool di Spark Synapse collegato. A tale scopo, effettuare i seguenti passaggi:

Aprire la pagina Dettagli per il pool di Spark di Synapse, nella studio di Azure Machine Learning.
Selezionare Scollega per scollegare il pool di Spark synapse collegato.

SI APPLICA A:Estensione ML dell'interfaccia della riga di comando di Azure v2 (corrente)

Un pool di Spark Synapse collegato può essere scollegato eseguendo il az ml compute detach comando con il nome del pool passato, usando il --name parametro , come illustrato di seguito:

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Questo esempio mostra l'output previsto del comando precedente:

Are you sure you want to perform this operation? (y/n): y

SI APPLICA A: Python SDK azure-ai-ml v2 (corrente)

Verrà usata una MLClient.compute.begin_delete() chiamata di funzione. Passare l'oggetto name del pool di Spark synapse collegato, insieme all'azione Detach, alla funzione . Questo frammento di codice scollega un pool di Synapse Spark da un'area di lavoro di Azure Machine Learning:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Calcolo Spark serverless in Azure Machine Learning

Alcuni scenari utente potrebbero richiedere l'accesso a una risorsa di calcolo Spark serverless, durante un invio di processo di Azure Machine Learning, senza dover collegare un pool di Spark. L'integrazione di Azure Synapse Analytics con Azure Machine Learning offre anche un'esperienza di calcolo Spark serverless. In questo modo è possibile accedere a un ambiente di calcolo Spark in un processo, senza dover prima collegare il calcolo a un'area di lavoro. Altre informazioni sull'esperienza di calcolo Spark serverless.

Collegare e gestire un pool di Spark Synapse in Azure Machine Learning

Prerequisiti

Collegare un pool di Spark Synapse in Azure Machine Learning

Aggiungere assegnazioni di ruolo in Azure Synapse Analytics

Aggiornare il pool di Spark di Synapse

Scollegare il pool di Spark di Synapse

Calcolo Spark serverless in Azure Machine Learning

Passaggi successivi

Risorse aggiuntive