Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
O Azure Databricks é uma plataforma de análise unificada e aberta para criar, implementar, partilhar e manter dados, análises e soluções de IA de nível empresarial em escala. A Databricks Data Intelligence Platform integra-se com o armazenamento e a segurança na nuvem na sua conta na nuvem e gere e implementa a infraestrutura na nuvem para si.
O Azure Databricks usa IA generativa com o data lakehouse para entender a semântica exclusiva de seus dados. Em seguida, ele otimiza automaticamente o desempenho e gerencia a infraestrutura para atender às suas necessidades de negócios.
O processamento de linguagem natural aprende o idioma da sua empresa, para que você possa pesquisar e descobrir dados fazendo uma pergunta com suas próprias palavras. A assistência em linguagem natural ajuda você a escrever código, solucionar erros e encontrar respostas na documentação.
Integração de código aberto gerenciada
O Databricks está comprometido com a comunidade de código aberto e gerencia atualizações de integrações de código aberto com as versões do Databricks Runtime. As seguintes tecnologias são projetos de código aberto originalmente criados por funcionários da Databricks:
Casos comuns de utilização
Os casos de uso a seguir destacam algumas das maneiras pelas quais os clientes usam o Azure Databricks para realizar tarefas essenciais para processar, armazenar e analisar os dados que impulsionam funções e decisões críticas de negócios.
Construa um data lakehouse corporativo
A arquitetura data lakehouse combina armazéns de dados empresariais e lagos de dados para acelerar, simplificar e unificar soluções de dados empresariais. Engenheiros de dados, cientistas de dados, analistas e sistemas de produção podem usar o data lakehouse como sua única fonte de verdade, fornecendo acesso a dados consistentes e reduzindo as complexidades da construção, manutenção e sincronização de muitos sistemas de dados distribuídos. Consulte O que é um data lakehouse?.
ETL e engenharia de dados
Quer esteja a gerar dashboards ou a alimentar aplicações de inteligência artificial, a engenharia de dados fornece a espinha dorsal para empresas centradas em dados, certificando-se de que os dados estão disponíveis, limpos e armazenados em modelos de dados para uma deteção e utilização eficientes. O Azure Databricks combina o poder do Apache Spark com Delta e ferramentas personalizadas para fornecer uma experiência ETL incomparável. Use SQL, Python e Scala para compor a lógica ETL e orquestrar a implantação de trabalho agendado com apenas alguns cliques.
O Lakeflow Declarative Pipelines simplifica ainda mais o ETL gerenciando de forma inteligente as dependências entre conjuntos de dados e implantando e dimensionando automaticamente a infraestrutura de produção para garantir a entrega de dados oportuna e precisa de acordo com suas especificações.
O Azure Databricks fornece ferramentas para ingestão de dados, incluindo o Auto Loader, uma ferramenta eficiente e escalável para carregar dados de forma incremental e idempotente do armazenamento de objetos na nuvem e data lakes para a data lakehouse.
Aprendizado de máquina, IA e ciência de dados
O aprendizado de máquina do Azure Databricks expande a funcionalidade principal da plataforma com um conjunto de ferramentas adaptadas às necessidades de cientistas de dados e engenheiros de ML, incluindo MLflow e Databricks Runtime for Machine Learning.
Grandes modelos de linguagem e IA generativa
O Databricks Runtime for Machine Learning inclui bibliotecas como Hugging Face Transformers que permitem integrar modelos pré-treinados existentes ou outras bibliotecas de código aberto em seu fluxo de trabalho. A integração do Databricks MLflow facilita o uso do serviço de rastreamento MLflow com tubulações, modelos e componentes de processamento de transformadores. Integre modelos ou soluções OpenAI de parceiros como John Snow Labs em seus fluxos de trabalho Databricks.
Com o Azure Databricks, personalize um LLM em seus dados para sua tarefa específica. Com o suporte de ferramentas de código aberto, como Hugging Face e DeepSpeed, você pode fazer um LLM básico de forma eficiente e começar a treinar com seus próprios dados para obter mais precisão para seu domínio e carga de trabalho.
Além disso, o Azure Databricks fornece funções de IA que os analistas de dados SQL podem usar para acessar modelos LLM, inclusive da OpenAI, diretamente em seus pipelines de dados e fluxos de trabalho. Consulte Aplicar IA em dados usando o Azure Databricks AI Functions.
Armazenamento de dados, análise e BI (Business Intelligence)
O Azure Databricks combina interfaces de usuário amigáveis com recursos de computação econômicos e armazenamento infinitamente escalável e acessível para fornecer uma plataforma poderosa para executar consultas analíticas. Os administradores configuram clusters de computação escaláveis como armazéns SQL, permitindo que os usuários finais executem consultas sem se preocupar com nenhuma das complexidades de trabalhar na nuvem. Os utilizadores de SQL podem executar consultas nos dados no data lakehouse utilizando o editor de consultas SQL ou em cadernos. Os notebooks suportam Python, R e Scala, além de SQL, e permitem que os usuários incorporem as mesmas visualizações disponíveis em painéis herdados ao lado de links, imagens e comentários escritos em markdown.
Governação de dados e partilha segura de dados
O Unity Catalog fornece um modelo unificado de governança de dados para o data lakehouse. Os administradores de nuvem configuram e integram permissões de controle de acesso grosseiro para o Catálogo Unity e, em seguida, os administradores do Azure Databricks podem gerenciar permissões para equipes e indivíduos. Os privilégios são gerenciados com listas de controle de acesso (ACLs) por meio de interfaces de usuário amigáveis ou sintaxe SQL, tornando mais fácil para os administradores de banco de dados proteger o acesso aos dados sem a necessidade de dimensionar o gerenciamento de acesso a identidades (IAM) nativo da nuvem e a rede.
O Unity Catalog simplifica a execução de análises seguras na nuvem e fornece uma divisão de responsabilidades que ajuda a limitar a requalificação ou o aperfeiçoamento necessário para administradores e usuários finais da plataforma. Consulte O que é o Unity Catalog?.
O lakehouse torna a partilha de dados dentro da sua organização tão simples quanto conceder acesso para consultas a uma tabela ou vista. Para compartilhar fora do seu ambiente seguro, o Unity Catalog apresenta uma versão gerenciada do Delta Sharing.
DevOps, CI/CD e orquestração de tarefas
Os ciclos de vida de desenvolvimento para pipelines de ETL, modelos de ML e painéis de análise apresentam seus próprios desafios exclusivos. O Azure Databricks permite que todos os seus usuários aproveitem uma única fonte de dados, o que reduz esforços duplicados e relatórios fora de sincronização. Além disso, fornecendo um conjunto de ferramentas comuns para controle de versão, automatização, agendamento, implantação de código e recursos de produção, você pode simplificar sua sobrecarga para monitoramento, orquestração e operações.
Os trabalhos agendam blocos de anotações do Azure Databricks, consultas SQL e outros códigos arbitrários. Os pacotes de ativos Databricks permitem definir, implantar e executar recursos do Databricks, como trabalhos e pipelines, programaticamente. pastas Git permitem sincronizar projetos do Azure Databricks com vários provedores de git populares.
Para obter recomendações e práticas recomendadas de CI/CD, consulte Práticas recomendadas e fluxos de trabalho de CI/CD recomendados no Databricks. Para obter uma visão geral completa das ferramentas para desenvolvedores, consulte Desenvolver no Databricks.
Análise em tempo real e streaming
O Azure Databricks aproveita o Apache Spark Structured Streaming para trabalhar com dados de streaming e alterações incrementais de dados. O Structured Streaming integra-se perfeitamente com o Delta Lake, e essas tecnologias fornecem as bases para os Lakeflow Declarative Pipelines e Auto Loader. Consulte Conceitos de streaming estruturado.