Apache Spark no Azure Databricks

Este artigo descreve como o Apache Spark está relacionado ao Azure Databricks e à Databricks Data Intelligence Platform.

O Apache Spark está no coração da plataforma Azure Databricks e é a tecnologia que alimenta clusters de computação e armazéns SQL. O Azure Databricks é uma plataforma otimizada para o Apache Spark, fornecendo uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.

Qual é a relação do Apache Spark com o Azure Databricks?

A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem committers de muitas empresas de topo, incluindo a Databricks.

A Databricks continua a desenvolver e lançar recursos para o Apache Spark. O Databricks Runtime inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo Photon, uma versão otimizada do Apache Spark reescrita em C++.

Como funciona o Apache Spark no Azure Databricks?

Quando você implanta um cluster de computação ou um SQL warehouse no Azure Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisa configurar ou inicializar um contexto do Spark ou uma sessão do Spark, pois eles são gerenciados para você pelo Azure Databricks.

Posso usar o Azure Databricks sem usar o Apache Spark?

O Azure Databricks dá suporte a uma variedade de cargas de trabalho e inclui bibliotecas de código aberto no Databricks Runtime. O Databricks SQL usa o Apache Spark nos bastidores, mas os usuários finais usam sintaxe SQL padrão para criar e consultar objetos de banco de dados.

O Databricks Runtime for Machine Learning é otimizado para cargas de trabalho de ML e muitos cientistas de dados usam bibliotecas primárias de código aberto como TensorFlow e SciKit Learn enquanto trabalham no Azure Databricks. Você pode usar fluxos de trabalho para agendar cargas de trabalho arbitrárias em relação aos recursos de computação implantados e gerenciados pelo Azure Databricks.

Por que usar o Apache Spark no Azure Databricks?

A plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implantar soluções empresariais que se adaptam ao seu negócio. Os funcionários da Databricks incluem muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.

Como posso saber mais sobre como usar o Apache Spark no Azure Databricks?

Para começar a usar o Apache Spark no Azure Databricks, mergulhe direto! O tutorial do Apache Spark DataFrames orienta o carregamento e a transformação de dados em Python, R ou Scala. Consulte Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames.

Informações adicionais sobre o suporte às linguagens Python, R e Scala no Spark podem ser encontradas nas seções PySpark on Azure Databricks, Visão geral do SparkR e Azure Databricks para desenvolvedores do Scala, bem como em Referência para APIs do Apache Spark.