Partilhar via


Engenharia de dados com Databricks

A Databricks fornece o Lakeflow, uma solução completa de engenharia de dados que capacita engenheiros de dados, desenvolvedores de software, desenvolvedores SQL, analistas e cientistas de dados a fornecer dados de alta qualidade para análises downstream, IA e aplicativos operacionais. O Lakeflow é uma solução unificada para ingestão, transformação e orquestração de seus dados e inclui Lakeflow Connect, Lakeflow Spark Declarative Pipelines e Lakeflow Jobs.

Conexão Lakeflow

O Lakeflow Connect simplifica a ingestão de dados com conectores para aplicativos empresariais populares, bancos de dados, armazenamento em nuvem, barramentos de mensagens e arquivos locais. Consulte Lakeflow Connect.

Característica Descrição
Conectores gerenciados Os conectores gerenciados fornecem uma interface do usuário simples e um serviço de ingestão baseado em configuração com sobrecarga operacional mínima, sem exigir que você use as APIs e a infraestrutura de pipeline subjacentes.
Conectores padrão Os conectores padrão oferecem a capacidade de aceder a dados de uma ampla gama de fontes de dados a partir dos seus pipelines ou de outras consultas.

Oleodutos declarativos Lakeflow Spark (SDP)

O Lakeflow Spark Declarative Pipelines, ou SDP, é uma estrutura declarativa que reduz a complexidade da criação e do gerenciamento de pipelines de dados em lote e streaming eficientes. O Lakeflow SDP se estende e é interoperável com o Apache Spark Declarative Pipelines, enquanto é executado no Databricks Runtime com desempenho otimizado. O SDP orquestra automaticamente a execução de fluxos, coletores, tabelas de streaming e visualizações materializadas, encapsulando-os e executando-os como um pipeline. Veja Lakeflow Spark Declarative Pipelines.

Característica Descrição
Fluxos Os fluxos processam dados em pipelines. A API de fluxos usa a mesma API DataFrame que o Apache Spark e o Structured Streaming. Um fluxo pode gravar em tabelas e coletores de streaming, como um tópico Kafka, usando semântica de streaming, ou pode gravar em uma exibição materializada usando semântica em lote.
Tabelas de streaming Uma tabela de streaming é uma tabela Delta com suporte adicional para streaming ou processamento incremental de dados. Atua como alvo para um ou mais fluxos em gasodutos.
Visões materializadas Uma vista materializada é uma vista com resultados armazenados em cache para um acesso mais rápido. Uma visão materializada atua como um alvo para oleodutos.
Pias Os pipelines suportam coletores de dados externos como destinos. Estes sinks podem incluir serviços de streaming de eventos, como Apache Kafka ou Azure Event Hubs, tabelas externas geridas pelo Unity Catalog, ou sinks personalizados definidos em Python.

Empregos em Lakeflow

O Lakeflow Jobs fornece orquestração confiável e monitoramento de produção para qualquer carga de trabalho de dados e IA. Um trabalho pode consistir em uma ou mais tarefas que executam blocos de anotações, pipelines, conectores gerenciados, consultas SQL, treinamento de aprendizado de máquina e implantação e inferência de modelos. Os trabalhos também suportam lógica de fluxo de controle personalizada, como ramificação com instruções if / else e looping com para cada instrução. Veja Lakeflow Jobs.

Característica Descrição
Tarefas Os empregos são o principal recurso para orquestração. Eles representam um processo que você deseja executar em uma base agendada.
Tarefas Uma unidade específica de trabalho dentro de um emprego. Há uma variedade de tipos de tarefas que oferecem uma variedade de opções que podem ser executadas dentro de um trabalho.
Controle o fluxo em trabalhos As tarefas de fluxo de controle permitem controlar se outras tarefas devem ser executadas ou a ordem das tarefas a serem executadas.

Databricks Runtime para Apache Spark

O Databricks Runtime é um ambiente de computação confiável e com desempenho otimizado para executar cargas de trabalho do Spark, incluindo lote e streaming. O Databricks Runtime fornece Photon, um mecanismo de consulta vetorizada nativo do Databricks de alto desempenho e várias otimizações de infraestrutura, como dimensionamento automático. Você pode executar suas cargas de trabalho do Spark e do Structured Streaming no Databricks Runtime criando seus programas do Spark como notebooks, JARs ou rodas Python. Consulte Databricks Runtime for Apache Spark.

Característica Descrição
Apache Spark em Databricks O Spark está no coração da Databricks Data Intelligence Platform.
Transmissão em Fluxo Estruturada O Streaming Estruturado é o mecanismo de processamento quase em tempo real do Spark para streaming de dados.

O que aconteceu com a Delta Live Tables (DLT)?

Se conhece as Delta Live Tables (DLT), veja O que aconteceu às Delta Live Tables (DLT)?.

Recursos adicionais