Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Data Factory no Microsoft Fabric ajuda você a resolver um dos desafios mais difíceis da empresa: transformar dados dispersos em informações úteis.
Os dados da sua organização vivem em muitos lugares diferentes: bancos de dados, arquivos, serviços de nuvem e sistemas legados. Isso dificulta a obtenção de uma visão completa do seu negócio. O Data Factory se conecta a mais de 170 fontes de dados, incluindo ambientes multicloud e configurações híbridas com gateways locais. Ele ajuda você a mover e transformar seus dados em escala, transformando-os em formatos que funcionam bem para análises e tomadas de decisão.
Diagrama do Data Factory no Microsoft Fabric que mostra uma seleção de conectores vinculados a ferramentas de análise e desenvolvimento de dados no Fabric por meio de movimentação, orquestração e transformação de dados. Tudo isso fica em cima do Fabric OneLake, e toda a camada é entrelaçada com inteligência artificial.
Quer seja um utilizador empresarial a criar a sua primeira estratégia de análise de dados ou um programador a criar fluxos de trabalho complexos, encontrará as ferramentas certas para:
- Reúna os seus dados
- Limpe-o
- Prepare-o para análise em sua Lakehouse ou Data Warehouse
- Automatize seus fluxos de trabalho de dados
O que é integração de dados?
A integração de dados é o processo de reunir seus dados estratégicos para que você possa acessá-los e analisá-los. É uma parte fundamental de qualquer empresa que queira tomar decisões baseadas em dados.
Há muitas maneiras de integrar seus dados, mas uma das estratégias mais comuns é o ETL. ETL significa Extrair, Transformar, Carregar. Ele pega informações de muitas fontes diferentes, transforma-as em um formato que você pode analisar e as carrega em um sistema de destino comum para análise ou relatórios. Quando você implementa um processo de ETL na plataforma de dados da sua empresa, ele melhora a consistência, a qualidade e a acessibilidade dos dados.
Veja o que cada fase faz:
- Extrair: lê dados de suas fontes e os move para um local de armazenamento central. As fontes podem ser bancos de dados, arquivos, APIs, sites e muito mais.
- Transformar: limpa, enriquece e transforma seus dados em um formato fácil de analisar. Por exemplo, talvez você queira comparar dados de vendas de um banco de dados SQL com documentos de vendas históricos digitalizados. Depois de extrair os dados, você precisa transformar os dados de cada fonte para que fiquem no mesmo formato, verificar se há corrupções ou duplicatas e combinar os dados em um único conjunto de dados.
- Carregar: grava os dados transformados em um sistema de destino, como um data warehouse ou data lake. O sistema de destino é onde você pode executar consultas e relatórios sobre seus dados.
ETL ou ELT?
Quando você trabalha com dados, a forma como você se move e transforma isso é importante, e cada organização terá necessidades diferentes. Por exemplo: ETL (Extract, Transform, Load) e ELT (Extract, Load, Transform). Cada um tem pontos fortes, dependendo de suas necessidades de desempenho, escalabilidade e custo.
ETL: Transforme seus dados antes de carregá-los em seu destino. Isso funciona bem quando você precisa limpar, padronizar ou enriquecer dados à medida que eles se movem. Por exemplo, use o Dataflow Gen 2 do Data Factory para aplicar transformações em escala antes de carregar dados em um armazém ou Lakehouse.
ELT: Carregue dados brutos primeiro e, em seguida, transforme-os onde estão armazenados. Essa abordagem usa o poder de mecanismos de análise como o OneLake do Fabric, o Spark Notebooks ou ferramentas baseadas em SQL. O ELT funciona bem para lidar com grandes conjuntos de dados com computação moderna em escala de nuvem.
O Fabric Data Factory suporta ambos. É possível:
- Crie pipelines ETL clássicos para qualidade e prontidão imediatas dos dados
- Use fluxos de trabalho ELT para aproveitar a computação e o armazenamento integrados para transformações em grande escala
- Combine ambas as abordagens na mesma solução para flexibilidade
O Data Factory é uma poderosa solução de integração de dados
O Data Factory se conecta aos seus dados, move-os, transforma-os e orquestra suas tarefas de movimentação e transformação de dados de um só lugar. Você decide qual estratégia funciona melhor para o seu negócio, e o Data Factory fornece as ferramentas para fazê-lo.
Conecte-se aos seus dados: seja no local, na nuvem ou em ambientes multicloud, o Data Factory se conecta às suas fontes e destinos de dados. Ele suporta uma ampla gama de fontes de dados, incluindo bancos de dados, data lakes, sistemas de arquivos, APIs e muito mais. Consulte os conectores disponíveis para obter uma lista completa das fontes de dados e destinos suportados.
Mover dados: o Data Factory fornece vários métodos para mover dados da origem para o destino ou fornece acesso fácil aos dados existentes, dependendo das suas necessidades.
- Trabalho de cópia - Solução preferida para movimentação de dados simplificada com suporte nativo para vários estilos de entrega, incluindo cópia em massa, cópia incremental e replicação de captura de dados de alteração (CDC). Ele também oferece a flexibilidade de lidar com uma ampla gama de cenários, de muitas fontes a muitos destinos — tudo através de uma experiência intuitiva e fácil de usar.
- Atividade de cópia - Move dados de um lugar para outro em qualquer escala, com ampla personalização, suporte para uma ampla gama de fontes e destinos e controle manual de cópia paralela para melhorar o desempenho.
- Espelhamento - Crie uma réplica quase em tempo real do seu banco de dados operacional no OneLake no Microsoft Fabric para facilitar suas análises e relatórios.
Consulte nosso guia de decisão de movimentação de dados para ajudá-lo a escolher o método de movimentação de dados certo para o seu cenário.
Transformar: o Data Factory fornece atividades para conectá-lo aos seus scripts de transformação personalizados ou ao poderoso designer de fluxos de dados.
- Atividades de pipeline - Notebook do Fabric, atividade do HDInsight, definição de trabalho do Spark, procedimento armazenado, scripts SQL e muito mais. Essas atividades permitem que você execute códigos ou scripts personalizados para transformar seus dados.
- Dataflow Gen 2 - Transforme seus dados usando uma interface low-code com mais de 300 transformações. Você pode realizar junções, agregações, limpeza de dados, transformações personalizadas e muito mais.
Orquestrar: o Data Factory permite criar pipelines que podem executar vários movimentos de dados, transformações e outras atividades em um único fluxo de trabalho.
- Agende pipelines para serem executados em horários específicos ou desencadeie-os com base em eventos.
- Os pipelines podem incluir lógica de fluxo de controle, como loops e condicionais, para lidar com fluxos de trabalho complexos e gerir todo o processamento de dados usando uma interface de design de pipeline low-code simples.
- Se você preferir expressar seus processos de orquestração em código, o Fabric Data Factory integra-se ao Apache Airflow para criar DAGs para orquestração usando Python.
Integração de dados alimentada por IA
A IA aparece em todo o Data Factory para ajudá-lo a fazer mais com menos esforço. O Copilot for Data Factory permite projetar, editar e gerenciar pipelines e fluxos de dados usando linguagem natural. Você pode digitar prompts em inglês simples e o Copilot os transforma em etapas ETL de trabalho.
O Copilot também resume suas consultas e pipelines de fluxo de dados existentes, para que você possa entender rapidamente o que eles fazem. Se você encontrar erros, o Copilot explica o que deu errado e sugere maneiras de corrigi-lo.
Para obter detalhes, consulte Copilot in Fabric na carga de trabalho do Data Factory.
O que precisa para começar?
- Uma conta de locatário do Microsoft Fabric com uma assinatura ativa. Se não tiver uma, pode criar uma conta gratuita.
- Um espaço de trabalho habilitado para Microsoft Fabric. Saiba como criar um espaço de trabalho.
E se já usarmos o Azure Data Factory?
O Data Factory no Microsoft Fabric é a próxima geração do Azure Data Factory, criado para lidar com seus desafios mais complexos de integração de dados com uma abordagem mais simples.
Consulte o nosso guia de comparação para conhecer as principais diferenças entre estes dois serviços, para que possa fazer a escolha certa para a sua empresa.
Quando estiver pronto para migrar, siga nosso guia de migração.
Conteúdo relacionado
Para obter mais informações e começar a usar o Microsoft Fabric, siga estes guias:
- Laboratório guiado de Data Factory - demonstração do Data Factory no Fabric
- A que você pode se conectar? - todas as fontes e destinos disponíveis para o Data Factory
- Tutorial completo do Data Factory - vamos guiá-lo através de todo o processo de ETL, desde a ingestão de dados até a transformação e carregamento em um sistema de destino