Visão geral do Apache Spark

O Apache Spark é a tecnologia que alimenta clusters de computação e armazéns SQL no Azure Databricks.

Esta página fornece uma visão geral da documentação nesta seção.

Introdução

Comece a trabalhar com o Apache Spark no Databricks.

Tópico	Description
Apache Spark no Azure Databricks	Obtenha respostas às perguntas frequentes sobre o Apache Spark no Azure Databricks.
Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames	Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento e transformação de dados.
Noções básicas do PySpark	Aprenda as noções básicas de uso do PySpark percorrendo exemplos simples.

Explore outros recursos e documentação do Spark.

Tópico	Description
Compare o Spark Connect com o Spark Classic	Saiba mais sobre as principais diferenças entre o Spark Connect e o Spark Classic no comportamento de execução e análise para evitar problemas inesperados de comportamento e desempenho ao migrar código.
Definir propriedades de configuração do Spark no Azure Databricks	Defina as propriedades de configuração do Spark para personalizar as configurações em seu ambiente de computação e otimizar o desempenho.
Streaming estruturado	Leia uma visão geral do Structured Streaming, um mecanismo de processamento quase em tempo real.
Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark	Aprenda a usar a interface do usuário do Spark para ajuste de desempenho, depuração e otimização de custos de trabalhos do Spark.
Usar o Apache Spark MLlib no Azure Databricks	Aprendizado de máquina distribuído usando Spark MLlib e integração com estruturas de ML populares.

Trabalhe com o Spark usando sua linguagem de programação preferida.

Tópico	Description
Referência para APIs do Apache Spark	Visão geral da referência de API para Apache Spark, incluindo links para referência para operações Spark SQL, DataFrames e RDD em idiomas suportados.
PySpark	Use Python com Spark, incluindo noções básicas do PySpark, fontes de dados personalizadas e otimizações específicas do Python.
API Pandas no Spark	Aproveite a sintaxe familiar dos pandas com a escalabilidade do Spark para processamento de dados distribuídos.
R para Spark	Trabalhe com R e Spark usando SparkR e sparklyr para computação estatística e análise de dados.
Scala para Spark	Crie aplicativos Spark de alto desempenho usando o Scala com APIs nativas do Spark e segurança de tipo.

Esta página foi útil?