Engenharia de dados com Databricks

A Databricks fornece o Lakeflow, uma solução completa de engenharia de dados que capacita engenheiros de dados, desenvolvedores de software, desenvolvedores SQL, analistas e cientistas de dados a fornecer dados de alta qualidade para análises downstream, IA e aplicativos operacionais. O Lakeflow é uma solução unificada para ingestão, transformação e orquestração de seus dados e inclui Lakeflow Connect, Lakeflow Spark Declarative Pipelines e Lakeflow Jobs.

Conexão Lakeflow

O Lakeflow Connect simplifica a ingestão de dados com conectores para aplicativos empresariais populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Consulte Lakeflow Connect.

Característica	Descrição
Conectores gerenciados	Os conectores gerenciados fornecem uma interface do usuário simples e um serviço de ingestão baseado em configuração com sobrecarga operacional mínima, sem exigir que você use as APIs e a infraestrutura de pipeline subjacentes.
Conectores padrão	Os conectores padrão oferecem a capacidade de aceder a dados de uma ampla gama de fontes de dados a partir dos seus pipelines ou de outras consultas.

Oleodutos declarativos Lakeflow Spark (SDP)

O Lakeflow Spark Declarative Pipelines, ou SDP, é uma estrutura declarativa que reduz a complexidade da criação e do gerenciamento de pipelines de dados em lote e streaming eficientes. O Lakeflow SDP se estende e é interoperável com o Apache Spark Declarative Pipelines, enquanto é executado no Databricks Runtime com desempenho otimizado. O SDP orquestra automaticamente a execução de fluxos, coletores, tabelas de streaming e visualizações materializadas, encapsulando-os e executando-os como um pipeline. Veja Lakeflow Spark Declarative Pipelines.

Característica	Descrição
Fluxos	Os fluxos processam dados em pipelines. A API de fluxos usa a mesma API DataFrame que o Apache Spark e o Structured Streaming. Um fluxo pode gravar em tabelas e coletores de streaming, como um tópico Kafka, usando semântica de streaming, ou pode gravar em uma exibição materializada usando semântica em lote.
Tabelas de streaming	Uma tabela de streaming é uma tabela Delta com suporte adicional para streaming ou processamento incremental de dados. Atua como alvo para um ou mais fluxos em gasodutos.
Visões materializadas	Uma vista materializada é uma vista com resultados armazenados em cache para um acesso mais rápido. Uma visão materializada atua como um alvo para oleodutos.
Pias	Os pipelines suportam coletores de dados externos como destinos. Estes sinks podem incluir serviços de streaming de eventos, como Apache Kafka ou Azure Event Hubs, tabelas externas geridas pelo Unity Catalog, ou sinks personalizados definidos em Python.

Empregos em Lakeflow

O Lakeflow Jobs fornece orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e IA. Um trabalho pode consistir em uma ou mais tarefas que executam blocos de anotações, pipelines, conectores gerenciados, consultas SQL, treinamento de aprendizado de máquina e implantação e inferência de modelos. Os trabalhos também suportam lógica de fluxo de controle personalizada, como ramificação com instruções if / else e looping com para cada instrução. Veja Lakeflow Jobs.

Característica	Descrição
Tarefas	Os empregos são o principal recurso para orquestração. Eles representam um processo que você deseja executar em uma base agendada.
Tarefas	Uma unidade específica de trabalho dentro de um emprego. Há uma variedade de tipos de tarefas que oferecem uma variedade de opções que podem ser executadas dentro de um trabalho.
Controle o fluxo em trabalhos	As tarefas de fluxo de controle permitem controlar se outras tarefas devem ser executadas ou a ordem das tarefas a serem executadas.

Databricks Runtime para Apache Spark

O Databricks Runtime é um ambiente de computação confiável e com desempenho otimizado para executar cargas de trabalho do Spark, incluindo lote e streaming. O Databricks Runtime fornece Photon, um mecanismo de consulta vetorizada nativo do Databricks de alto desempenho e várias otimizações de infraestrutura, como dimensionamento automático. Você pode executar suas cargas de trabalho do Spark e do Structured Streaming no Databricks Runtime criando seus programas do Spark como notebooks, JARs ou rodas Python. Consulte Databricks Runtime for Apache Spark.

Característica	Descrição
Apache Spark em Databricks	O Spark está no coração da Databricks Data Intelligence Platform.
Transmissão em Fluxo Estruturada	O Streaming Estruturado é o mecanismo de processamento quase em tempo real do Spark para streaming de dados.

O que aconteceu com a Delta Live Tables (DLT)?

Se conhece as Delta Live Tables (DLT), veja O que aconteceu às Delta Live Tables (DLT)?.

Recursos adicionais

Conceitos de engenharia de dados descreve conceitos de engenharia de dados no Azure Databricks.
Delta Lake é a camada de armazenamento otimizada que fornece a base para tabelas em uma casa de lago no Azure Databricks.
As práticas recomendadas de engenharia de dados ensinam sobre as práticas recomendadas para engenharia de dados no Azure Databricks.
Os notebooks Databricks são uma ferramenta popular para colaboração e desenvolvimento.
O Databricks SQL descreve o uso de consultas SQL e ferramentas de BI no Azure Databricks.
O Databricks Mosaic AI descreve a arquitetura de soluções de aprendizado de máquina.

Feedback

Esta página foi útil?

Last updated on 2026-01-23

Partilhar via

Engenharia de dados com Databricks

Conexão Lakeflow

Oleodutos declarativos Lakeflow Spark (SDP)

Empregos em Lakeflow

Databricks Runtime para Apache Spark

O que aconteceu com a Delta Live Tables (DLT)?

Recursos adicionais

Feedback

Recursos adicionais