Início Rápido: Carregar dados para o conjunto de SQL dedicado com a atividade de cópia

Artigo
07/27/2023

O Azure Synapse Analytics oferece vários motores de análise para o ajudar a ingerir, transformar, modelar e analisar os seus dados. Um conjunto de SQL dedicado oferece capacidades de armazenamento e computação baseadas em T-SQL. Depois de criar um conjunto de SQL dedicado na área de trabalho do Synapse, os dados podem ser carregados, modelados, processados e entregues para obter informações analíticas mais rápidas.

Neste início rápido, vai aprender a carregar dados da Base de Dados do SQL do Azure para o Azure Synapse Analytics. Pode seguir passos semelhantes para copiar dados de outros tipos de arquivos de dados. Este fluxo semelhante aplica-se também à cópia de dados de outras origens e sinks.

Pré-requisitos

Subscrição do Azure: se não tiver uma subscrição do Azure, crie uma conta gratuita do Azure antes de começar.
Azure Synapse área de trabalho: crie uma área de trabalho do Synapse com o portal do Azure ao seguir as instruções em Início Rápido: Criar uma área de trabalho do Synapse.
base de dados do SQL do Azure: este tutorial copia dados do conjunto de dados de exemplo Adventure Works LT na Base de Dados do SQL do Azure. Pode criar esta base de dados de exemplo no Base de Dados SQL ao seguir as instruções em Criar uma base de dados de exemplo na Base de Dados do SQL do Azure. Em alternativa, pode utilizar outros arquivos de dados ao seguir passos semelhantes.
Conta de armazenamento do Azure: o Armazenamento do Azure é utilizado como a área de teste na operação de cópia. Se não tem uma conta de armazenamento do Azure, veja as instruções apresentadas em Criar uma conta de armazenamento.
Azure Synapse Analytics: utiliza um conjunto de SQL dedicado como um arquivo de dados sink. Se não tiver uma instância do Azure Synapse Analytics, veja Criar um conjunto de SQL dedicado para obter os passos para criar um.

Navegue para o Synapse Studio

Depois de criar a área de trabalho do Synapse, tem duas formas de abrir Synapse Studio:

Abra a área de trabalho do Synapse no portal do Azure. Selecione Abrir no cartão Abrir Synapse Studio em Introdução.
Abra o Azure Synapse Analytics e inicie sessão na sua área de trabalho.

Neste início rápido, utilizamos a área de trabalho com o nome "adftest2020" como exemplo. Irá navegar automaticamente para a home page do Synapse Studio.

home page do Synapse Studio

Criar serviços ligados

No Azure Synapse Analytics, um serviço associado é onde define as informações de ligação a outros serviços. Nesta secção, irá criar os seguintes dois tipos de serviços ligados: serviços ligados da Base de Dados SQL do Azure e Azure Data Lake Storage Gen2 (ADLS Gen2).

Na home page do Synapse Studio, selecione o separador Gerir no painel de navegação esquerdo.
Em Ligações externas, selecione Serviços ligados.
Para adicionar um serviço ligado, selecione Novo.
Selecione SQL do Azure Base de Dados na galeria e, em seguida, selecione Continuar. Pode escrever "sql" na caixa de pesquisa para filtrar os conectores.
Na página Novo Serviço Ligado, selecione o nome do servidor e o nome da BD na lista pendente e especifique o nome de utilizador e a palavra-passe. Clique em Testar ligação para validar as definições e, em seguida, selecione Criar.
Repita os passos 3 a 4, mas selecione Azure Data Lake Storage Gen2 em vez disso na galeria. Na página Novo Serviço Ligado, selecione o nome da conta de armazenamento na lista pendente. Clique em Testar ligação para validar as definições e, em seguida, selecione Criar.

Criar um pipeline

Um pipeline contém o fluxo lógico para uma execução de um conjunto de atividades. Nesta secção, irá criar um pipeline que contém uma atividade de cópia que ingere dados do SQL do Azure Database num conjunto de SQL dedicado.

Aceda ao separador Integrar . Selecione no ícone de adição junto ao cabeçalho pipelines e selecione Pipeline.
Em Mover e Transformar no painel Atividades , arraste Copiar dados para a tela do pipeline.
Selecione na atividade de cópia e aceda ao separador Origem. Selecione Novo para criar um novo conjunto de dados de origem.
Selecione SQL do Azure Base de Dados como arquivo de dados e selecione Continuar.
No painel Definir propriedades, selecione o serviço ligado base de dados SQL do Azure que criou no passo anterior.
Em Nome da tabela, selecione uma tabela de exemplo a utilizar na seguinte atividade de cópia. Neste início rápido, utilizamos a tabela "SalesLT.Customer" como exemplo.
Selecione OK quando terminar.
Selecione a atividade de cópia e aceda ao separador Sink. Selecione Novo para criar um novo conjunto de dados de sink.
Selecione Azure Synapse conjunto de SQL dedicado como arquivo de dados e selecione Continuar.
No painel Definir propriedades , selecione o conjunto de Análise de SQL que criou no passo anterior. Se estiver a escrever numa tabela existente, em Nome da tabela , selecione-a na lista pendente. Caso contrário, selecione "Editar" e introduza o nome da nova tabela. Selecione OK quando terminar.
Para as definições do conjunto de dados Sink, ative Criar tabela automaticamente no campo de opção Tabela.
Na página Definições , selecione a caixa de verificação Ativar teste. Esta opção aplica-se se os dados de origem não forem compatíveis com o PolyBase. Na secção Definições de teste, selecione o Azure Data Lake Storage Gen2 serviço ligado que criou no passo anterior como armazenamento de teste.

O armazenamento é utilizado para testar os dados antes de serem carregados para o Azure Synapse Analytics com o PolyBase. Após a conclusão da cópia, os dados provisórios no Azure Data Lake Storage Gen2 são limpos automaticamente.
Para validar o pipeline, selecione Validar na barra de ferramentas. Verá o resultado da saída de validação do Pipeline no lado direito da página.

Depurar e publicar o pipeline

Depois de concluir a configuração do pipeline, pode executar uma execução de depuração antes de publicar os artefactos para verificar se está tudo correto.

Para depurar o pipeline, selecione Depurar na barra de ferramentas. Verá o estado da execução do pipeline no separador Saída, na parte inferior da janela.
Assim que a execução do pipeline for bem-sucedida, na barra de ferramentas superior, selecione Publicar tudo. Esta ação publica entidades (conjuntos de dados e pipelines) que criou no serviço Synapse Analytics.
Aguarde até ver a mensagem Publicação com êxito. Para ver mensagens de notificação, selecione o botão de campainha no canto superior direito.

Acionar e monitorizar o pipeline

Nesta secção, vai acionar manualmente o pipeline publicado no passo anterior.

Selecione Adicionar Acionador na barra de ferramentas e, em seguida, selecione Acionar Agora. Na página Execução do Pipeline , selecione OK.
Aceda ao separador Monitor localizado na barra lateral esquerda. Verá uma execução de pipeline que é acionada por um acionador manual.
Quando a execução do pipeline for concluída com êxito, selecione a ligação na coluna Nome do pipeline para ver os detalhes da execução da atividade ou voltar a executar o pipeline. Neste exemplo, existe apenas uma atividade, pelo que verá apenas uma entrada na lista.
Para obter detalhes sobre a operação de cópia, selecione a ligação Detalhes (ícone de óculos ) na coluna Nome da atividade . Pode monitorizar detalhes como o volume de dados copiados da origem para o sink, débito de dados, passos de execução com duração correspondente e configurações utilizadas.
Para voltar à vista de execuções do pipeline, selecione a ligação Todas as execuções de pipeline na parte superior. Selecione Atualizar para atualizar a lista.
Verifique se os dados estão escritos corretamente no conjunto de SQL dedicado.

Passos seguintes

Avance para o seguinte artigo para saber mais sobre o suporte do Azure Synapse Analytics:

Descrição geral do Conector de pipelines e atividades atividade Copy

Partilhar via