Transformar dados no Azure Data Factory e no Azure Synapse Analytics
APLICA-SE A: Azure Data Factory Azure Synapse Analytics
Dica
Experimente o Data Factory no Microsoft Fabric, uma solução de análise tudo-em-um para empresas. O Microsoft Fabric abrange desde movimentação de dados até ciência de dados, análise em tempo real, business intelligence e relatórios. Saiba como iniciar uma avaliação gratuita!
Importante
O suporte para o Estúdio do Azure Machine Learning (clássico) terminará em 31 de agosto de 2024. Recomendamos que você faça a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, não é possível criar novos recursos do Estúdio do Machine Learning (clássico) (workspace e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Estúdio do Machine Learning (clássico). Para saber mais, veja:
- Migrar para o Azure Machine Learning do Estúdio do Machine Learning (clássico)
- O que é Azure Machine Learning?
A documentação do Machine Learning Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Este artigo explica as atividades de transformação de dados possíveis nos pipelines do Azure Data Factory e do Synapse para transformar e processar dados brutos em previsões e insights em escala. Uma atividade de transformação é executada em um ambiente de cálculo, como o Azure Databricks ou o Azure HDInsight. Ela fornece links para artigos com informações detalhadas sobre cada atividade de transformação.
O serviço dá suporte às seguintes atividades de transformação de dados, que podem ser adicionadas aos pipelines individualmente ou de forma encadeada com outra atividade.
Os fluxos de dados de mapeamento são transformações de dados visualmente projetadas no Azure Data Factory e no Azure Synapse. Os fluxos de dados permitem que os engenheiros de dados desenvolvam a lógica de transformação de dados gráficos sem escrever código. Os fluxos de dados resultantes são executados como atividades em pipelines que usam clusters Spark expandidos. As atividades de fluxo de dados podem ser operacionalizadas no serviço por funcionalidades existentes de agendamento, controle, fluxo e monitoramento. Para saber mais, confira fluxo de dados de mapeamento.
O Power Query no Azure Data Factory permite a estruturação de dados em escala de nuvem, o que permite que você faça a preparação de dados sem código em escala de nuvem iterativamente. A estruturação de dados se integra com o Power Query Online e torna as funções M do Power Query disponíveis para a estruturação de dados em escala de nuvem por meio da execução do Spark. Para saber mais, vejaEstruturação de dados no Azure Data Factory.
Observação
No momento, o Power Query só tem suporte no Azure Data Factory, não no Azure Synapse. Para ver uma lista de recursos específicos com suporte em cada serviço, confira Recursos disponíveis nos pipelines do Azure Data Factory e do Azure Synapse Analytics.
Opcionalmente, você pode codificar manualmente as transformações e gerenciar o ambiente de computação externo.
A atividade de Hive do HDInsight em um pipeline executa consultas de Hive em seu próprio cluster do HDInsight baseado em Windows/Linux ou em um sob demanda. Consulte o artigo Hive activity (Atividade do Hive) para obter detalhes sobre essa atividade.
A atividade de Pig do HDInsight em um pipeline executa consultas de Pig em seu próprio cluster do HDInsight baseado em Windows/Linux ou em um sob demanda. Consulte o artigo Pig activity (Atividade do Pig) para obter detalhes sobre essa atividade.
A atividade de MapReduce do HDInsight em um pipeline executa programas MapReduce no seu próprio cluster do HDInsight baseado em Windows/Linux ou em um sob demanda. Consulte o artigo MapReduce activity (Atividade do MapReduce) para obter detalhes sobre essa atividade.
A atividade de Streaming do HDInsight em um pipeline executa programas de Streaming do Hadoop em seu próprio cluster do HDInsight baseado em Windows/Linux ou em um sob demanda. Confira Atividade de HDInsight Streaming para obter detalhes sobre essa atividade.
A atividade Spark do HDInsight em um pipeline executa programas Spark em seu próprio cluster HDInsight. Para obter detalhes, veja Invocar programas Spark com o Azure Data Factory ou o Azure Synapse Analytics.
Importante
O suporte para o Estúdio do Azure Machine Learning (clássico) terminará em 31 de agosto de 2024. Recomendamos que você faça a transição para o Azure Machine Learning até essa data.
A partir de 1º de dezembro de 2021, não é possível criar novos recursos do Estúdio do Machine Learning (clássico) (workspace e plano de serviço Web). Até 31 de agosto de 2024, você pode continuar a usar os experimentos e serviços Web existentes do Estúdio do Machine Learning (clássico). Para saber mais, veja:
- Migrar para o Azure Machine Learning do Estúdio do Machine Learning (clássico)
- O que é Azure Machine Learning?
A documentação do Machine Learning Studio (clássico) está sendo desativada e pode não ser atualizada no futuro.
Com o serviço, você cria com facilidade pipelines que usam um serviço Web publicado do ML Studio (clássico) para a análise preditiva. Com a atividade Batch Execution em um pipeline, você pode invocar um serviço Web do Studio (clássico) para fazer previsões em lote sobre os dados.
Ao longo do tempo, os modelos de previsão nos experimentos de pontuação do Estúdio (clássico) precisam ser treinados novamente com novos conjuntos de dados de entrada. Depois de concluir o novo treinamento, você deseja atualizar o serviço Web de pontuação com o modelo do machine learning readaptado. Você pode usar a Atividade de Recurso de Atualização para atualizar o serviço Web com o modelo recém-treinado.
Confira Usar atividades do ML Studio (clássico) para obter detalhes sobre essas atividades do Studio (clássico).
Você pode usar a atividade de Procedimento Armazenado do SQL Server em um pipeline do Data Factory para invocar um procedimento armazenado em um dos seguintes repositórios de dados: Banco de Dados SQL do Azure, Azure Synapse Analytics, Banco de Dados do Microsoft SQL Server na sua empresa ou em uma VM do Azure. Consulte o artigo Stored Procedure activity (Atividade de Procedimento Armazenado) para obter detalhes.
A atividade de U-SQL do Data Lake Analytics executa um script U-SQL em um cluster do Azure Data Lake Analytics. Consulte o artigo Data Analytics U-SQL activity (atividade de U-SQL do Data Analytics) para obter detalhes.
A atividade de Notebook do Azure Synapse em um pipeline do Synapse executa um notebook do Synapse em seu workspace do Azure Synapse. Veja Transformar dados executando um notebook do Azure Synapse.
A atividade de Notebook do Azure Databricks em um pipeline executa um notebook do Databricks no workspace do Azure Databricks. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark. Veja Transformar dados executando um bloco de notas do Databricks.
A atividade de Jar do Azure Databricks em um pipeline executa um Jar de Spark no cluster do Azure Databricks. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark. Veja Transformar dados executando uma atividade Jar no Azure Databricks.
A atividade de Python do Azure Databricks em um pipeline executa um arquivo Python no cluster do Azure Databricks. O Azure Databricks é uma plataforma gerenciada para executar o Apache Spark. Ver transformar dados executando uma atividade de Python no Azure Databricks.
Se precisar transformar dados de uma maneira que não tenha suporte do Data Factory, você poderá criar uma atividade personalizada com sua própria lógica de processamento de dados e usar a atividade no pipeline. Você pode configurar a atividade personalizada do .NET para que seja executada usando um serviço de Lote do Azure ou um cluster do Azure HDInsight. Confira o artigo Usar atividades personalizadas para obter detalhes.
Você pode criar uma atividade personalizada para executar scripts R em seu cluster HDInsight com R instalado. Veja Executar scripts R usando os pipelines do Azure Data Factory e do Synapse.
Crie um serviço vinculado para o ambiente de computação e, em seguida, usar o serviço vinculado ao definir uma atividade de transformação. Há dois tipos de ambientes de computação com suporte.
- Sob demanda: neste caso, o ambiente de computação é totalmente gerenciado pelo serviço. Ele é criado automaticamente pelo serviço antes de um trabalho ser enviado para processar os dados e é removido após a conclusão do trabalho. Você pode configurar e controlar as configurações granulares do ambiente de computação sob demanda para execução do trabalho, gerenciamento de cluster e ações de inicialização.
- Traga seu próprio: neste caso, você pode registrar seu próprio ambiente de computação (por exemplo, o cluster do HDInsight) como um serviço vinculado. O ambiente de computação é gerenciado por você e o serviço o utiliza para executar as atividades.
Veja o artigo Serviços vinculados de computação para saber mais sobre os serviços de computação com suporte.
Consulte o tutorial a seguir para obter um exemplo de como usar uma atividade de transformação: Tutorial: transformar dados usando o Spark