Anexar e gerenciar um Pool do Spark do Synapse no Azure Machine Learning

Artigo
09/03/2024

APLICA-SE A:Extensão de ML da CLI do Azure v2 (atual)SDK do Python azure-ai-ml v2 (atual)

Neste artigo, você aprenderá a anexar um Pool do Spark do Synapse no Azure Machine Learning. Você pode anexar um Pool do Spark do Synapse no Azure Machine Learning de uma destas maneiras:

Usar a interface do usuário do Estúdio do Azure Machine Learning
Usar a CLI do Azure Machine Learning
Usar o SDK do Python do Azure Machine Learning

Pré-requisitos

Uma assinatura do Azure. Caso não tenha uma, crie uma conta gratuita antes de começar.
Um Workspace do Azure Machine Learning. Confira Criar recursos de workspace.
Crie um espaço de trabalho do Azure Synapse Analytics no portal do Azure.
Crie um Pool do Apache Spark usando o portal do Azure.

Anexar um Pool do Spark do Synapse no Azure Machine Learning

O Azure Machine Learning oferece diferentes maneiras de anexar e gerenciar um Pool do Synapse Spark.

Para anexar um Pool do Synapse Spark com a guia Computação do Studio:

Na seção Gerenciar no painel esquerdo, selecione Computação.
Selecione Computações anexadas.
Na tela Computações anexadas, selecione Novo para ver as opções para anexar diferentes tipos de computação.
Selecione Pool do Spark do Synapse.

O painel Anexar Pool do Synapse Spark é aberto no lado direito da tela. Nesse painel:

Insira um Nome que se referirá ao Pool do Synapse Spark anexado dentro do recurso Azure Machine Learning.
Selecione uma Assinatura do Azure no menu suspenso.
Selecione um Workspace do Synapse no menu suspensa.
Selecione um Pool do Spark no menu suspenso.
Alterne a opção Atribuir uma identidade gerenciada para habilitá-la.
Selecione um tipo de Identidade gerenciada para usar com esse Pool do Spark do Synapse anexado.
Selecione Atualizar para concluir o processo de anexação do Pool do Spark do Synapse.

APLICA-SE A: Extensão de ML da CLI do Azurev2 (atual)

Com a CLI do Azure Machine Learning, podemos usar a sintaxe YAML intuitiva e os comandos da interface de linha de comando para anexar e gerenciar um pool do Synapse Spark.

Para definir um Pool do Spark do Synapse anexado usando a sintaxe YAML, o arquivo YAML deve abranger estas propriedades:

name – nome de um Pool do Spark do Synapse anexado.
type – defina essa propriedade como synapsespark.
resource_id – essa propriedade deve fornecer o valor da ID do recurso do Pool do Spark do Synapse criado no workspace do Azure Synapse Analytics. A ID do recurso do Azure inclui
- ID de assinatura do Azure,
- nome do grupo de recursos,
- nome do workspace do Azure Synapse Analytics, e
- nome do Pool do Spark do Synapse.
```
name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>
```

identity – essa propriedade define o tipo de identidade a ser atribuído ao Pool do Spark do Synapse anexado. Pode ser um dos valores a seguir:

system_assigned

user_assigned

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
type: system_assigned

Para o identity tipo user_assigned, você também deve fornecer uma lista de valores user_assigned_identities. Cada identidade atribuída pelo usuário deve ser declarada como um elemento da lista usando o valor resource_id da identidade atribuída pelo usuário. A primeira identidade atribuída pelo usuário na lista é usada para enviar um trabalho por padrão.

name: <ATTACHED_SPARK_POOL_NAME>

type: synapsespark

resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>

identity:
  type: user_assigned
  user_assigned_identities:
    - resource_id: /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>

Os arquivos YAML acima podem ser usados no comando az ml compute attach como o parâmetro --file. Um Pool do Spark do Synapse pode ser anexado a um workspace do Azure Machine Learning, em um grupo de recursos especificado de uma assinatura, com o comando az ml compute attach conforme mostrado aqui:

az ml compute attach --file <YAML_SPECIFICATION_FILE_NAME>.yaml --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Este exemplo mostra a saída esperada do comando acima:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please visit https://aka.ms/azuremlexperimental for more information.

{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Se o Pool do Spark do Synapse anexado, com o nome especificado no arquivo de especificação YAML já existir no workspace, a execução do comando az ml compute attach atualizará o pool existente com as informações fornecidas no arquivo de especificação YAML. Você pode atualizar o

tipo de identidade
identidades atribuídas pelo usuário
marcas

valores por meio do arquivo de especificação YAML.

Para exibir detalhes de um Pool do Spark do Synapse anexado, execute o comando az ml compute show. Passe o nome do Pool do Spark do Synapse anexado com o parâmetro --name, conforme mostrado:

az ml compute show --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Este exemplo mostra a saída esperada do comando acima:

<ATTACHED_SPARK_POOL_NAME>
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 19:01:05.109840+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Para ver uma lista de todas as computações, incluindo os Pools do Spark do Synapse anexados em um workspace, use o comando az ml compute list. Use o parâmetro name para passar o nome do workspace, conforme mostrado:

az ml compute list --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Este exemplo mostra a saída esperada do comando acima:

[
    {
    "auto_pause_settings": {
        "auto_pause_enabled": true,
        "delay_in_minutes": 15
    },
    "created_on": "2022-09-09 21:28:54.871251+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
        "principal_id": "<PRINCIPAL_ID>",
        "tenant_id": "<TENANT_ID>",
        "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
        "auto_scale_enabled": false,
        "max_node_count": 0,
        "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
    },
    ...
]

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

O SDK do Python do Azure Machine Learning fornece funções convenientes para anexar e gerenciar o Pool do Spark do Synapse, usando o código Python nos Notebooks do Azure Machine Learning.

Para anexar uma Computação do Synapse usando o SDK do Python, primeiro crie uma instância da classe azure.ai.ml.MLClient. Isso fornece funções convenientes para interação com os serviços do Azure Machine Learning. O exemplo de código a seguir usa azure.identity.DefaultAzureCredential para se conectar a um workspace no grupo de recursos de uma assinatura especificada do Azure. No exemplo de código a seguir, defina o SynapseSparkCompute com estes parâmetros:

name – nome definido pelo usuário do novo Pool do Spark do Synapse anexado.
resource_id – ID do recurso do Pool do Synapse Spark criado anteriormente no workspace do Azure Synapse Analytics

Uma chamada de função azure.ai.ml.MLClient.begin_create_or_update() anexa o Pool do Spark do Synapse definido ao workspace do Azure Machine Learning.

from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource)
ml_client.begin_create_or_update(synapse_comp)

Para anexar um Pool do Spark do Synapse que use a identidade atribuída pelo sistema, passe IdentityConfiguration, com o tipo definido como SystemAssigned, como o parâmetro identity da classe SynapseSparkCompute. Esse snippet de código anexa um Pool do Synapse Spark que usa a identidade atribuída pelo sistema:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(type="SystemAssigned")

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Um Pool do Spark do Synapse também pode usar uma identidade atribuída pelo usuário. Para uma identidade atribuída pelo usuário, você pode passar uma definição de identidade gerenciada usando a classe IdentityConfiguration, como o parâmetro identity da classe SynapseSparkCompute. Para a definição de identidade gerenciada usada dessa forma, defina type como UserAssigned. Além disso, passe um parâmetro user_assigned_identities. O parâmetro user_assigned_identities é uma lista de objetos da classe UserAssignedIdentity. O resource_id da identidade atribuída pelo usuário preenche cada objeto de classe UserAssignedIdentity. Esse snippet de código anexa um Pool do Spark do Synapse que usa a identidade atribuída pelo usuário:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Observação

A função azure.ai.ml.MLClient.begin_create_or_update() anexa um novo Pool do Spark do Synapse caso um pool com o nome especificado ainda não exista no workspace. No entanto, se um Pool do Spark do Synapse com esse nome especificado já estiver anexado ao workspace, uma chamada para a função azure.ai.ml.MLClient.begin_create_or_update() atualizará o pool anexado existente com a nova identidade ou identidades.

Adicionar atribuições de função no Azure Synapse Analytics

Para garantir que o Pool do Spark do Synapse anexado funcione corretamente, atribua a função Administrador a ele, da interface do usuário do Estúdio do Azure Synapse Analytics. Estas etapas mostram como fazer isso:

Selecione o seu Workspace do Synapse no portal do Azure.
No painel esquerdo, selecione Visão geral.
Consulte Abrir o Synapse Studio.
No Estúdio do Azure Synapse Analytics, selecione Gerenciar no painel esquerdo.
Selecione Controle de acesso na seção Segurança do painel esquerdo, segundo à esquerda.
Selecione Adicionar.
O painel Adicionar atribuição de função será aberto no lado direito da tela. Nesse painel:
1. Selecione Item de workspace para Escopo.
2. No menu suspenso Tipo de item, selecione Pool do Apache Spark.
3. No menu suspenso Item, selecione seu Pool do Apache Spark.
4. No menu suspenso Função, selecione Administrador do Synapse.
5. Na caixa de pesquisa Selecionar usuário, comece a digitar o nome do Workspace do Azure Machine Learning. Ele mostrará uma lista de Pools do Spark do Synapse anexados. Selecione o Pool do Spark do Synapse desejado na lista.
6. Selecione Aplicar.

Atualizar o Pool do Spark do Synapse

Você pode gerenciar o Pool do Spark do Synapse anexado na interface do usuário do Estúdio do Azure Machine Learning. A funcionalidade de gerenciamento do Pool do Spark inclui atualizações de identidade gerenciadas associadas para um Pool do Spark do Synapse anexado. Você pode atribuir uma identidade atribuída pelo sistema ou atribuída pelo usuário ao atualizar um Pool do Spark do Synapse. Você deve criar uma identidade gerenciada atribuída pelo usuário no portal do Azure, antes de atribuí-la a um Pool do Synapse Spark.

Para atualizar a identidade gerenciada para o Pool do Spark do Synapse anexado:

Abra a página Detalhes do Pool do Spark do Synapse no Estúdio do Azure Machine Learning.
Localize o ícone de edição, localizado no lado direito da seção Identidade gerenciada.
Para atribuir uma identidade gerenciada pela primeira vez, alterne Atribuir uma identidade gerenciada para habilitá-la.
Para atribuir uma identidade gerenciada atribuída pelo sistema:
1. Selecione Atribuído pelo sistema como o Tipo de identidade.
2. Selecione Atualizar.
Para atribuir uma identidade gerenciada atribuída pelo usuário:
1. Selecione Atribuído pelo usuário como o Tipo de identidade.
2. Selecione uma Assinatura do Azure no menu suspenso.
3. Digite as primeiras letras do nome da identidade gerenciada atribuída pelo usuário na caixa que mostra o texto Pesquisar por nome. Uma lista com nomes de identidade gerenciada atribuídos pelo usuário correspondentes será exibida. Selecione na lista a identidade gerenciada atribuída pelo usuário que deseja. Você pode selecionar várias identidades gerenciadas atribuídas pelo usuário e atribuí-las ao Pool do Spark do Synapse anexado.
4. Selecione Atualizar.

APLICA-SE A: Extensão de ML da CLI do Azurev2 (atual)

Para atualizar a identidade associada a um Pool do Synapse Spark anexado, execute o comando az ml compute update com os parâmetros apropriados. Para atribuir uma identidade atribuída pelo sistema, defina o parâmetro --identity no comando como SystemAssigned, conforme mostrado:

az ml compute update --identity SystemAssigned --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

Este exemplo mostra a saída esperada do comando acima:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
    "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
    },
    "created_on": "2022-09-13 20:02:15.746490+00:00",
    "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
    "identity": {
    "principal_id": "<PRINCIPAL_ID>",
    "tenant_id": "<TENANT_ID>",
    "type": "system_assigned"
    },
    "location": "eastus2",
    "name": "<ATTACHED_SPARK_POOL_NAME>",
    "node_count": 5,
    "node_family": "MemoryOptimized",
    "node_size": "Small",
    "provisioning_state": "Succeeded",
    "resourceGroup": "<RESOURCE_GROUP>",
    "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<AML_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
    "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
    },
    "spark_version": "3.2",
    "type": "synapsespark"
}

Para atribuir uma identidade atribuída pelo usuário, defina o parâmetro --identity no comando como UserAssigned. Além disso, você deve usar o parâmetro --user-assigned-identities para passar a ID do recurso para a identidade atribuída pelo usuário, conforme mostrado:

az ml compute update --identity UserAssigned --user-assigned-identities /subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME> --name <ATTACHED_SPARK_POOL_NAME>

Este exemplo mostra a saída esperada do comando acima:

Class SynapseSparkCompute: This is an experimental class, and may change at any time. Please see https://aka.ms/azuremlexperimental for more information.
{
  "auto_pause_settings": {
    "auto_pause_enabled": true,
    "delay_in_minutes": 15
  },
  "created_on": "2022-09-13 20:02:15.746490+00:00",
  "id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.MachineLearningServices/workspaces/<AML_WORKSPACE_NAME>/computes/<ATTACHED_SPARK_POOL_NAME>",
  "identity": {
    "type": "user_assigned",
    "user_assigned_identities": [
      {
        "client_id": "<CLIENT_ID>",
        "principal_id": "<PRINCIPAL_ID>",
        "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourcegroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
      }
    ]
  },
  "location": "eastus2",
  "name": "<ATTACHED_SPARK_POOL_NAME>",
  "node_count": 5,
  "node_family": "MemoryOptimized",
  "node_size": "Small",
  "provisioning_state": "Succeeded",
  "resourceGroup": "<RESOURCE_GROUP>",
  "resource_id": "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>",
  "scale_settings": {
    "auto_scale_enabled": false,
    "max_node_count": 0,
    "min_node_count": 0
  },
  "spark_version": "3.2",
  "type": "synapsespark"
}

Observação

O parâmetro --user-assigned-identities pode obter uma lista de IDs de recurso e atribuir várias identidades definidas pelo usuário a um Pool do Spark do Synapse anexado. A primeira identidade atribuída pelo usuário na lista será usada para enviar um trabalho por padrão.

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

Para usar a identidade atribuída pelo sistema, passe IdentityConfiguration, com o tipo definido como SystemAssigned, como o parâmetro identity da classe SynapseSparkCompute. Esse snippet de código atualiza um Pool do Spark do Synapse para usar uma identidade atribuída pelo sistema:

# import required libraries 
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute, IdentityConfiguration 
from azure.identity import DefaultAzureCredential
    
subscription_id = "<SUBSCRIPTION_ID>" 
resource_group_name = "<RESOURCE_GROUP>" 
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace 
) 

synapse_name = "<ATTACHED_SPARK_POOL_NAME>" 
synapse_resource ="/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>" 
synapse_identity = IdentityConfiguration(type="SystemAssigned") 

synapse_comp = SynapseSparkCompute(name=synapse_name, resource_id=synapse_resource,identity=synapse_identity) ml_client.begin_create_or_update(synapse_comp)

Um Pool do Spark do Synapse também pode usar uma identidade atribuída pelo usuário. Para uma identidade atribuída pelo usuário, você pode passar uma definição de identidade gerenciada usando a classe IdentityConfiguration, como o parâmetro identity da classe SynapseSparkCompute. Para a definição de identidade gerenciada usada dessa forma, defina type como UserAssigned. Além disso, passe um parâmetro user_assigned_identities. O parâmetro user_assigned_identities é uma lista de objetos da classe UserAssignedIdentity. O resource_id da identidade atribuída pelo usuário preenche cada objeto de classe UserAssignedIdentity. Esse snippet de código atualiza um Pool do Spark do Synapse para usar uma identidade atribuída pelo usuário:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import (
    SynapseSparkCompute,
    IdentityConfiguration,
    UserAssignedIdentity,
)
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
synapse_resource = "/subscriptions/<SUBSCRIPTION_ID>/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.Synapse/workspaces/<SYNAPSE_WORKSPACE_NAME>/bigDataPools/<SPARK_POOL_NAME>"
synapse_identity = IdentityConfiguration(
    type="UserAssigned",
    user_assigned_identities=[
        UserAssignedIdentity(
            resource_id="/subscriptions/<SUBSCRIPTION_ID/resourceGroups/<RESOURCE_GROUP>/providers/Microsoft.ManagedIdentity/userAssignedIdentities/<AML_USER_MANAGED_ID>"
        )
    ],
)

synapse_comp = SynapseSparkCompute(
    name=synapse_name, resource_id=synapse_resource, identity=synapse_identity
)
ml_client.begin_create_or_update(synapse_comp)

Observação

Caso um pool com o nome especificado ainda não exista no workspace, a função azure.ai.ml.MLClient.begin_create_or_update() anexará um novo Pool do Spark do Synapse. No entanto, se um Pool do Spark do Synapse com o nome especificado já estiver anexado ao workspace, uma chamada de função azure.ai.ml.MLClient.begin_create_or_update() atualizará o pool anexado existente com a nova identidade ou identidades.

Desanexar o Pool do Spark do Synapse

Talvez queiramos desanexar um Pool do Spark do Synapse anexado para limpar um workspace.

A interface do usuário do Estúdio do Azure Machine Learning também fornece uma maneira de desanexar um Pool do Spark do Synapse anexado. Para fazer isso, siga estas etapas:

Abra a página Detalhes do Pool do Spark do Synapse no Estúdio do Azure Machine Learning.
Selecione Desanexar para desanexar o Pool do Spark do Synapse anexado.

APLICA-SE A: Extensão de ML da CLI do Azurev2 (atual)

Um Pool do Synapse Spark anexado pode ser desanexado executando o comando az ml compute detach com o nome do pool passado usando o parâmetro --name conforme mostrado aqui:

az ml compute detach --name <ATTACHED_SPARK_POOL_NAME> --subscription <SUBSCRIPTION_ID> --resource-group <RESOURCE_GROUP> --workspace-name <AML_WORKSPACE_NAME>

Este exemplo mostra a saída esperada do comando acima:

Are you sure you want to perform this operation? (y/n): y

APLICA-SE A: SDK do Python azure-ai-ml v2 (atual)

Usaremos uma chamada de função MLClient.compute.begin_delete(). Passe o name do Pool do Spark do Synapse anexado, juntamente com a ação Detach, para a função. Esse snippet de código desanexa um Pool do Spark do Synapse de um workspace do Azure Machine Learning:

# import required libraries
from azure.ai.ml import MLClient
from azure.ai.ml.entities import SynapseSparkCompute
from azure.identity import DefaultAzureCredential

subscription_id = "<SUBSCRIPTION_ID>"
resource_group = "<RESOURCE_GROUP>"
workspace_name = "<AML_WORKSPACE_NAME>"

ml_client = MLClient(
    DefaultAzureCredential(), subscription_id, resource_group, workspace_name
)

synapse_name = "<ATTACHED_SPARK_POOL_NAME>"
ml_client.compute.begin_delete(name=synapse_name, action="Detach")

Computação do Spark sem servidor nos Notebooks de Machine Learning do Azure

Alguns cenários de usuário podem exigir acesso a um recurso de computação do Spark sem servidor durante um envio de trabalho do Azure Machine Learning, sem a necessidade de anexar um Pool do Spark. A integração do Azure Synapse Analytics com o Azure Machine Learning também fornece uma experiência de computação spark sem servidor. Isso permite o acesso a uma computação do Spark em um trabalho, sem a necessidade de anexar a computação a um espaço de trabalho primeiro. Saiba mais sobre a experiência com a computação do Spark sem servidor.

Partilhar via

Anexar e gerenciar um Pool do Spark do Synapse no Azure Machine Learning

Pré-requisitos

Anexar um Pool do Spark do Synapse no Azure Machine Learning

Adicionar atribuições de função no Azure Synapse Analytics

Atualizar o Pool do Spark do Synapse

Desanexar o Pool do Spark do Synapse

Computação do Spark sem servidor nos Notebooks de Machine Learning do Azure

Próximas etapas

Comentários

Recursos adicionais