O que é o Azure Databricks?
A Plataforma do Azure Databricks Lakehouse fornece um conjunto unificado de ferramentas para criar, implantar, compartilhar e manter soluções de dados de nível empresarial em escala. O Azure Databricks integra-se ao armazenamento em nuvem e à segurança em sua conta de nuvem e gerencia e implanta a infraestrutura de nuvem em seu nome.
Integração gerenciada com software livre
O Databricks tem um forte compromisso com a comunidade de software livre. O Databricks gerencia atualizações de integrações de código aberto nas versões do Databricks Runtime. As seguintes tecnologias são projetos de software livre fundados por funcionários do Databricks:
O Azure Databricks mantém várias ferramentas proprietárias que integram e expandem essas tecnologias para adicionar desempenho otimizado e facilidade de uso, como o seguinte:
Como o Azure Databricks funciona com o Azure?
A arquitetura da plataforma do Azure Databricks é composta por duas partes primárias: a infraestrutura usada pelo Azure Databricks para implantar, configurar e gerenciar a plataforma e os serviços e a infraestrutura de propriedade do cliente gerenciada em colaboração entre o Azure Databricks e sua empresa.
Ao contrário de muitas empresas de banco de dados corporativos, o Azure Databricks não força você a migrar seus dados para sistemas de armazenamento proprietários para uso da plataforma. Em vez disso, você configura um workspace do Azure Databricks configurando integrações seguras entre a plataforma do Azure Databricks e a conta de nuvem e, em seguida, o Azure Databricks implanta clusters de computação efêmeros usando recursos de nuvem na conta para processar e armazenar dados no armazenamento de objetos e outros serviços integrados controlados por você.
O Catálogo do Unity estende ainda mais essa relação, permitindo que você gerencie permissões para acessar dados usando a sintaxe SQL familiar no Azure Databricks.
O Azure Databricks implantou workspaces que atendem aos requisitos de segurança e rede de algumas das maiores e mais importantes empresas de segurança do mundo. O Azure Databricks facilita a introdução de novos usuários à plataforma e remove muitos dos encargos e preocupações de trabalhar com a infraestrutura de nuvem dos usuários finais, mas não limita as personalizações e o controle de dados, as operações e as equipes de segurança experientes.
Qual é a finalidade de uso do Azure Databricks?
Nossos clientes usam o Azure Databricks para processar, armazenar, limpar, compartilhar, analisar, modelar e monetizar seus conjuntos de dados com soluções de BI para machine learning. Você pode usar a plataforma do Azure Databricks para criar muitos aplicativos diferentes que abrangem personas de dados. Os clientes que abraçam totalmente a lakehouse aproveitam nossa plataforma unificada para criar e implantar fluxos de trabalho de engenharia de dados, modelos de machine learning e painéis de análise que alimentam inovações e insights em uma organização.
O workspace do Azure Databricks fornece interfaces do usuário para muitas tarefas de dados principais, incluindo ferramentas para o seguinte:
- Notebooks interativos
- Agendador e gerente de fluxos de trabalho
- Editor e painéis do SQL
- Ingestão de dados e governança
- Descoberta, anotação e exploração de dados
- Gerenciamento de computação
- Acompanhamento de experimentos de ML (Machine Learning)
- Serviço de modelo de ML
- Um repositório de recursos
- Controle do código-fonte com Git
Além da interface do usuário do workspace, você pode interagir com o Azure Databricks programaticamente com as seguintes ferramentas:
- API REST
- CLI
- Terraform
Quais são os casos de uso comuns para o Azure Databricks?
Os casos de uso no Azure Databricks são tão variados quanto os dados processados na plataforma e as diversas personas de funcionários que trabalham com dados como parte central de seu trabalho. Os casos de uso a seguir destacam como os usuários de toda a sua organização podem aproveitar o Azure Databricks para realizar tarefas essenciais para processar, armazenar e analisar os dados que impulsionam as funções e as decisões comerciais críticas.
Criar um data lakehouse corporativo
O data lakehouse combina as vatagens de data warehouses e data lakes para acelerar, simplificar e unificar soluções de dados corporativos. Engenheiros de dados, cientistas de dados, analistas e sistemas de produção podem aproveitar o data lakehouse como uma única fonte da verdade, permitindo acesso oportuno a dados consistentes e reduzindo as complexidades de criação, manutenção e sincronização de diversos sistemas de dados distribuídos. Consulte O que é o Databricks Lakehouse?.
ETL e engenharia de dados
Seja gerando painéis ou alimentando aplicativos de inteligência artificial, a engenharia de dados fornece o backbone para empresas centradas em dados, garantindo que os dados estejam disponíveis, limpos e armazenados em modelos de dados que permitam a descoberta e o uso eficientes. O Azure Databricks combina o poder do Apache Spark com o Delta Lake e ferramentas personalizadas para fornecer uma experiência ETL (extração, transformação e carregamento) incomparável. Você pode usar o SQL, Python e Scala para redigir a lógica ETL e, em seguida, orquestrar a implantação de trabalho agendada com apenas alguns cliques.
O Delta Live Tables simplifica ainda mais o ETL, gerenciando de forma inteligente as dependências entre conjuntos de dados e implantando e dimensionando automaticamente a infraestrutura de produção para garantir a entrega oportuna e precisa dos dados de acordo com suas especificações.
O Azure Databricks fornece várias ferramentas personalizadas para ingestão de dados, incluindo o Carregador Automático, uma ferramenta eficiente e escalonável para carregar dados de maneira incremental e idempotente do armazenamento de objetos na nuvem e data lakes para o data lakehouse.
Aprendizado de máquina, IA e ciência de dados
O aprendizado de máquina do Azure Databricks expande a funcionalidade principal da plataforma com um conjunto de ferramentas adaptadas às necessidades de cientistas de dados e engenheiros de ML, incluindo o MLflow e o Databricks Runtime for Machine Learning. Consulte Guia do Databricks Machine Learning.
Armazenamento de dados, análise e BI
O Azure Databricks combina UIs amigáveis ao usuário com recursos de computação econômicos e armazenamento infinitamente escalonável e acessível para fornecer uma plataforma avançada para executar consultas analíticas. Os administradores configuram clusters de computação escalonáveis como SQL Warehouses, permitindo que os usuários finais executem consultas sem se preocupar com as complexidades do trabalho na nuvem. Os usuários do SQL podem consultar os dados no lakehouse usando o editor de consultas SQL ou em notebooks. Os notebooks dão suporte a Python, R e Scala, além do SQL, e permitem que os usuários insiram as mesmas visualizações disponíveis em painéis juntamente com links, imagens e comentários gravados no markdown.
Governança de dados e compartilhamento seguro de dados
O Catálogo do Unity fornece um modelo de governança de dados unificado para o data lakehouse. Os administradores de nuvem configuram e integram permissões de controle de acesso grosseiras para o Catálogo do Unity e, em seguida, os administradores do Azure Databricks podem gerenciar permissões para equipes e indivíduos. Os privilégios são gerenciados com ACLs (listas de controle de acesso) por meio de UIs amigáveis para o usuário ou sintaxe SQL, facilitando para os administradores de banco de dados o acesso aos dados sem a necessidade de dimensionar o IAM (gerenciamento de acesso de identidade) nativo de nuvem e a rede.
O Catálogo do Unity simplifica a execução da análise segura na nuvem e fornece uma divisão de responsabilidade que ajuda a limitar a requalificação ou o treinamento necessário para administradores e usuários finais da plataforma. Veja O que é o Catálogo do Unity?.
O lakehouse torna o compartilhamento de dados em sua organização tão simples quanto a concessão de acesso à consulta a uma tabela ou exibição. Para compartilhar fora do seu ambiente seguro, o Catálogo do Unity apresenta uma versão gerenciada do Compartilhamento Delta.
DevOps, CI/CD e orquestração de tarefas
Os ciclos de vida de desenvolvimento para pipelines de ETL, modelos de ML e painéis de análise apresentam seus próprios desafios exclusivos. O Azure Databricks permite que todos os usuários aproveitem uma única fonte de dados, o que reduz esforços duplicados e relatórios fora de sincronia. Além de fornecer um conjunto de ferramentas comuns para controle de versão, automatização, agendamento, implantação de recursos de código e produção, você pode simplificar sua sobrecarga de monitoramento, orquestração e operações. Os fluxos de trabalho agendam notebooks do Azure Databricks, consultas SQL e outros códigos arbitrários. O Repos permite sincronizar projetos do Azure Databricks com vários provedores Git populares. Para obter uma visão geral completa das ferramentas, consulte Ferramentas e diretrizes do desenvolvedor.
Análise de streaming e em tempo real
O Azure Databricks aproveita o Streaming estruturado do Apache Spark para trabalhar com dados de streaming e alterações de dados incrementais. O Streaming estruturado integra-se ao Delta Lake e essas tecnologias fornecem as bases para o Delta Live Tables e o Carregador Automático. Consulte O que é o Streaming Estruturado do Apache Spark?.