Apache Spark no Azure Databricks
Este artigo descreve como o Apache Spark está relacionado ao Azure Databricks e à Plataforma Data Intelligence do Databricks.
O Apache Spark está no centro da Plataforma Azure Databricks e é a tecnologia que alimenta clusters de computação e SQL warehouses. O Azure Databricks é uma plataforma otimizada para Apache Spark, fornecendo uma plataforma eficiente e simples para executar cargas de trabalho do Apache Spark.
A empresa Databricks foi fundada pelos criadores originais do Apache Spark. Como um projeto de software de código aberto, o Apache Spark tem usuários de muitas empresas de ponta, incluindo o Databricks.
A Databricks continua desenvolvendo e lançando recursos para o Apache Spark. O Databricks Runtime inclui otimizações adicionais e recursos proprietários que se baseiam e estendem o Apache Spark, incluindo o Photon, uma versão otimizada do Apache Spark reescrita em C++.
Quando você implanta um cluster de computação ou SQL warehouse no Azure Databricks, o Apache Spark é configurado e implantado em máquinas virtuais. Você não precisar configurar ou a inicializar um contexto ou de uma sessão do Spark, pois eles são gerenciados para você pelo Azure Databricks.
O Azure Databricks dá suporte a uma variedade de cargas de trabalho e inclui bibliotecas de código aberto no Databricks Runtime. O Databricks SQL usa o Apache Spark nos bastidores, mas os usuários finais usam a sintaxe SQL padrão para criar e consultar objetos de banco de dados.
O Databricks Runtime para Machine Learning é otimizado para cargas de trabalho de ML, e muitos cientistas de dados usam bibliotecas de código aberto primárias, como TensorFlow e SciKit Learn, enquanto trabalham no Azure Databricks. Você pode usar trabalhos para agendar cargas de trabalho arbitrárias com base nos recursos de computação implantados e gerenciados pelo Azure Databricks.
A Plataforma Databricks fornece um ambiente seguro e colaborativo para desenvolver e implantar soluções corporativas que são dimensionadas com seus negócios. Os funcionários do Databricks contam com muitos dos mantenedores e usuários do Apache Spark mais experientes do mundo. A empresa desenvolve e lança continuamente novas otimizações para garantir que os usuários possam acessar o ambiente mais rápido para executar o Apache Spark.
Para começar a usar o Apache Spark no Azure Databricks, mergulhe de cabeça! O tutorial do Apache Spark DataFrames explica como carregar e transformar dados em Python, R ou Scala. Veja Tutorial: Carregar e transformar dados usando Apache Spark DataFrames.
Informações adicionais sobre o suporte à linguagem Python, R e Scala no Spark são encontradas nas seções PySpark no Azure Databricks, visão geral do SparkR e Azure Databricks para desenvolvedores do Scala, bem como em Referência para APIs do Apache Spark.