Transformar dados em Azure Data Factory e Azure Synapse Analytics

APLICA-SE A: Azure Data Factory Azure Synapse Analytics

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos Machine Learning Studio (clássico) (espaço de trabalho e plano de serviços web). Até 31 de agosto de 2024, pode continuar a utilizar as experiências e serviços web do Machine Learning (clássico) existentes.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

Descrição Geral

Este artigo explica as atividades de transformação de dados em Azure Data Factory e oleodutos Synapse que pode usar para transformar e processar os seus dados brutos em previsões e insights em escala. Uma atividade de transformação executa em um ambiente de computação como Azure Databricks ou Azure HDInsight. Fornece ligações a artigos com informações detalhadas sobre cada atividade de transformação.

O serviço suporta as seguintes atividades de transformação de dados que podem ser adicionadas aos oleodutos individualmente ou acorrentados com outra atividade.

Transforme-se nativamente em Azure Data Factory e Azure Synapse Analytics com fluxos de dados

Fluxos de dados de mapeamento

Os fluxos de dados de mapeamento são transformações de dados visualmente projetadas em Azure Data Factory e Azure Synapse. Os fluxos de dados permitem que os engenheiros de dados desenvolvam lógicas de transformação de dados gráficos sem escrever código. Os fluxos de dados resultantes são executados como atividades dentro de oleodutos que utilizam clusters de faíscas escalonados. As atividades de fluxo de dados podem ser operacionalizadas através das capacidades de agendamento, controlo, fluxo e monitorização existentes dentro do serviço. Para obter mais informações, consulte os fluxos de dados de mapeamento.

Discussão de dados

Power Query em Azure Data Factory permite a criação de dados em escala de nuvem, o que lhe permite fazer a preparação de dados sem código em iterativas à escala de nuvem. A disputa de dados integra-se com Power Query Online e disponibiliza funções de Power Query M para a luta de dados à escala de nuvens através da execução de faíscas. Para mais informações, consulte os dados em Azure Data Factory.

Nota

Power Query é atualmente apenas apoiado em Azure Data Factory, e não em Azure Synapse. Para obter uma lista de funcionalidades específicas suportadas em cada serviço, consulte as funcionalidades disponíveis nos & Azure Data Factory Azure Synapse pipelines Analytics.

Transformações externas

Opcionalmente, você pode fazer transformações de código manual e gerir o ambiente computacional externo.

Atividade da Colmeia HDInsight

A atividade hdInsight Hive em um oleoduto executa consultas de Hive por conta própria ou a pedido Windows/cluster HDInsight baseado em Linux. Consulte o artigo de atividade da Hive para obter mais detalhes sobre esta atividade.

Atividade do Porco HDInsight

A atividade do Porco HDInsight em um oleoduto executa consultas de porco por conta própria ou a pedido Windows/cluster HDInsight baseado em Linux. Consulte o artigo de atividade do Porco para mais detalhes sobre esta atividade.

HdInsight MapReduce atividade

A atividade HDInsight MapReduce em um oleoduto executa programas MapReduce por conta própria ou a pedido Windows/cluster HDInsight baseado em Linux. Consulte o artigo de atividade mapReduce para mais detalhes sobre esta atividade.

Atividade de streaming HDInsight

A atividade de streaming HDInsight num oleoduto executa os programas de Streaming Hadoop por conta própria ou a pedido Windows/cluster HDInsight baseado em Linux. Consulte a atividade de Streaming HDInsight para obter mais detalhes sobre esta atividade.

Atividade de HdInsight Spark

A atividade HDInsight Spark num oleoduto executa programas Spark no seu próprio cluster HDInsight. Para mais detalhes, consulte os programas Invoke Spark com Azure Data Factory ou Azure Synapse Analytics.

atividades ML Studio (clássica)

Importante

O suporte para o Estúdio de ML (clássico) terminará a 31 de agosto de 2024. Recomendamos a transição para o Azure Machine Learning até essa data.

A partir de 1 de dezembro de 2021, não poderá criar novos recursos Machine Learning Studio (clássico) (espaço de trabalho e plano de serviços web). Até 31 de agosto de 2024, pode continuar a utilizar as experiências e serviços web do Machine Learning (clássico) existentes.

A documentação do Estúdio de ML (clássico) está a ser descontinuada e poderá não ser atualizada no futuro.

O serviço permite-lhe criar facilmente oleodutos que utilizem um serviço web ML Studio (clássico) publicado para análise preditiva. Utilizando a atividade de Execução de Lote num oleoduto, pode invocar um serviço web Studio (clássico) para fazer previsões sobre os dados em lote.

Com o tempo, os modelos preditivos no Estúdio (clássico) experiências de pontuação precisam de ser retreinados usando novos conjuntos de dados de entrada. Depois de terminar a reconversão, pretende atualizar o serviço web de pontuação com o modelo de aprendizagem automática retreinado. Pode utilizar a atividade de Update Resource para atualizar o serviço web com o modelo recém-treinado.

Consulte as atividades do Use ML Studio (clássico) para mais detalhes sobre estas atividades do Studio (clássico).

Atividade de procedimento armazenado

Pode utilizar a atividade do Procedimento SQL Server Armazenado num oleoduto da Data Factory para invocar um procedimento armazenado numa das seguintes lojas de dados: Base de Dados SQL do Azure, Azure Synapse Analytics, SQL Server Database na sua empresa ou num VM Azure. Consulte o artigo de atividade do Procedimento Armazenado para obter mais informações.

atividade Data Lake Analytics U-SQL

Data Lake Analytics U-SQL atividade executa um script U-SQL num cluster Azure Data Lake Analytics. Consulte o artigo de atividade U-SQL Data Analytics para obter mais detalhes.

Atividade do Caderno Azure Synapse

A Azure Synapse Portátil Atividade num gasoduto Synapse executa um caderno Synapse no seu espaço de trabalho Azure Synapse. Consulte os dados da Transforme-os executando um caderno Azure Synapse.

Atividade do Caderno databricks

A Azure Databricks Notebook Activity em um oleoduto executa um caderno Databricks no seu espaço de trabalho Azure Databricks. Azure Databricks é uma plataforma gerida para executar Apache Spark. Consulte os dados de transformar executando um caderno Databricks.

Atividade do Jar databricks

A Azure Databricks Jar Activity em um oleoduto executa um Jarro de Faísca no seu cluster Azure Databricks. Azure Databricks é uma plataforma gerida para executar Apache Spark. Consulte os dados da Transform executando uma atividade do Jar em Azure Databricks.

Atividade de Databricks Python

A atividade python do Azure Databricks num oleoduto executa um ficheiro Python no seu cluster Azure Databricks. Azure Databricks é uma plataforma gerida para executar Apache Spark. Consulte os dados da Transform executando uma atividade Python em Azure Databricks.

Atividade personalizada

Se precisar de transformar dados de uma forma que não seja suportada pela Data Factory, pode criar uma atividade personalizada com a sua própria lógica de processamento de dados e utilizar a atividade no pipeline. Pode configurar a atividade personalizada .NET para executar utilizando um serviço de Azure Batch ou um cluster Azure HDInsight. Consulte o artigo de atividades personalizadas para obter mais detalhes.

Pode criar uma atividade personalizada para executar scripts R no seu cluster do HDInsight com R instalado. Consulte o Script Run R utilizando Azure Data Factory e os gasodutos Synapse.

Ambientes computacional

Cria um serviço ligado para o ambiente computacional e, em seguida, utiliza o serviço ligado ao definir uma atividade de transformação. Existem dois tipos suportados de ambientes computativos.

  • A pedido: Neste caso, o ambiente de computação é totalmente gerido pelo serviço. É automaticamente criado pelo serviço antes de um trabalho ser submetido a dados de processamento e removido quando o trabalho estiver concluído. Você pode configurar e controlar configurações granulares do ambiente de computação a pedido para execução de emprego, gestão de clusters e ações de bootstrapping.
  • Bring Your Own: Neste caso, pode registar o seu próprio ambiente de computação (por exemplo, cluster HDInsight) como um serviço ligado. O ambiente de computação é gerido por si e o serviço utiliza-o para executar as atividades.

Consulte o artigo da Compute Linked Services para saber mais sobre os serviços de computação suportados.

Passos seguintes

Veja o seguinte tutorial para um exemplo de utilização de uma atividade de transformação: Tutorial: transformar dados usando Spark