Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
O Apache Spark está no centro da Plataforma de Inteligência de Dados do Azure Databricks e é a tecnologia que alimenta clusters de computação e sql warehouses. O Azure Databricks é uma plataforma otimizada para Apache Spark que fornece uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.
Qual é a relação do Apache Spark com o Azure Databricks?
A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem usuários de muitas empresas de ponta, incluindo o Databricks.
A Databricks continua desenvolvendo e lançando recursos para o Apache Spark. O Databricks Runtime, que alimenta o Azure Databricks, inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo o Photon, uma camada de execução otimizada que pode ser usada em conjunto com o Spark. O Databricks Photon foi projetado para trabalhar e melhorar o desempenho das cargas de trabalho do Apache Spark. O Photon aprimora o desempenho do Spark vetorizando consultas e outras operações, permitindo uma execução mais rápida das operações de API do SQL e do DataFrame.
Como o Databricks é otimizado para o Apache Spark?
No Apache Spark, todas as operações são definidas como transformações ou ações.
- Transformações: adicione alguma lógica de processamento ao plano. Os exemplos incluem leitura de dados, junções, agregações e conversão de tipos.
- Ações: disparar a lógica de processamento para avaliar e gerar um resultado. Exemplos incluem gravação, exibição ou pré-visualização de resultados, armazenamento manual em cache ou obtenção da contagem de linhas.
O Apache Spark usa um modelo de execução lento, o que significa que nenhuma lógica definida por uma coleção de operações é avaliada até que uma ação seja disparada. Para evitar uma avaliação desnecessária da lógica, use apenas ações para salvar os resultados em uma tabela de destino.
Como as ações representam um gargalo de processamento para otimizar a lógica, o Azure Databricks adicionou várias otimizações sobre as já presentes no Apache Spark para garantir a execução lógica ideal. Essas otimizações consideram todas as transformações disparadas por uma determinada ação de uma só vez e encontram o plano ideal com base no layout físico dos dados. Armazenar dados em cache manualmente ou retornar resultados de pré-visualização nos pipelines de produção pode interromper essas otimizações e resultar em aumentos de custo e latência.
Como o Apache Spark funciona no Azure Databricks?
Quando você implanta um cluster de computação ou SQL warehouse no Azure Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisa configurar nem inicializar um contexto do Spark ou uma sessão do Spark, pois elas são gerenciadas para você pelo Azure Databricks.
Posso usar o Azure Databricks sem usar o Apache Spark?
Sim. O Azure Databricks dá suporte a uma variedade de cargas de trabalho e inclui bibliotecas de código aberto no Databricks Runtime. O Databricks SQL usa o Photon no capô, mas os usuários finais podem usar a sintaxe do Spark SQL para criar e consultar objetos de banco de dados com o Photon.
O Databricks Runtime para Machine Learning é otimizado para cargas de trabalho de ML, e muitos cientistas de dados usam bibliotecas de código aberto primárias, como TensorFlow e SciKit Learn, enquanto trabalham no Azure Databricks. Você pode usar trabalhos para agendar cargas de trabalho arbitrárias com base nos recursos de computação implantados e gerenciados pelo Azure Databricks.
Por que usar o Apache Spark no Azure Databricks?
A Plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implantar soluções corporativas que são dimensionadas com seus negócios. Os funcionários do Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.
Como posso saber mais sobre como usar o Apache Spark no Azure Databricks?
Para começar a usar o Apache Spark no Azure Databricks, comece agora mesmo! O tutorial do Apache Spark DataFrames explica como carregar e transformar dados em Python, R ou Scala. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames.
Para obter informações adicionais sobre o suporte à linguagem Python, R e Scala no Spark, consulte pySpark no Azure Databricks, sparklyr e Azure Databricks para desenvolvedores do Scala, bem como em Referência para APIs do Apache Spark.