Partilhar via


Visão geral do Apache Spark

O Apache Spark é a tecnologia que alimenta clusters de computação e armazéns SQL no Azure Databricks.

Esta página fornece uma visão geral da documentação nesta seção.

Introdução

Comece a trabalhar com o Apache Spark no Databricks.

Tópico Description
Apache Spark no Azure Databricks Obtenha respostas às perguntas frequentes sobre o Apache Spark no Azure Databricks.
Tutorial: Carregar e transformar dados usando o Apache Spark DataFrames Siga um guia passo a passo para trabalhar com Spark DataFrames em Python, R ou Scala para carregamento e transformação de dados.
Noções básicas do PySpark Aprenda as noções básicas de uso do PySpark percorrendo exemplos simples.

Recursos adicionais

Explore outros recursos e documentação do Spark.

Tópico Description
Compare o Spark Connect com o Spark Classic Saiba mais sobre as principais diferenças entre o Spark Connect e o Spark Classic no comportamento de execução e análise para evitar problemas inesperados de comportamento e desempenho ao migrar código.
Definir propriedades de configuração do Spark no Azure Databricks Defina as propriedades de configuração do Spark para personalizar as configurações em seu ambiente de computação e otimizar o desempenho.
Streaming estruturado Leia uma visão geral do Structured Streaming, um mecanismo de processamento quase em tempo real.
Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark Aprenda a usar a interface do usuário do Spark para ajuste de desempenho, depuração e otimização de custos de trabalhos do Spark.
Usar o Apache Spark MLlib no Azure Databricks Aprendizado de máquina distribuído usando Spark MLlib e integração com estruturas de ML populares.

Spark APIs

Trabalhe com o Spark usando sua linguagem de programação preferida.

Tópico Description
Referência para APIs do Apache Spark Visão geral da referência de API para Apache Spark, incluindo links para referência para operações Spark SQL, DataFrames e RDD em idiomas suportados.
PySpark Use Python com Spark, incluindo noções básicas do PySpark, fontes de dados personalizadas e otimizações específicas do Python.
API Pandas no Spark Aproveite a sintaxe familiar dos pandas com a escalabilidade do Spark para processamento de dados distribuídos.
R para Spark Trabalhe com R e Spark usando SparkR e sparklyr para computação estatística e análise de dados.
Scala para Spark Crie aplicativos Spark de alto desempenho usando o Scala com APIs nativas do Spark e segurança de tipo.