Visão geral do Apache Spark

O Apache Spark é a tecnologia que alimenta clusters de computação e sql warehouses no Azure Databricks.

Esta página fornece uma visão geral da documentação nesta seção.

Introdução

Comece a trabalhar com o Apache Spark no Databricks.

Tópico	Description
Apache Spark no Azure Databricks	Obtenha respostas para perguntas frequentes sobre o Apache Spark no Azure Databricks.
Tutorial: Carregar e transformar dados usando Apache Spark DataFrames	Siga um guia passo a passo para trabalhar com DataFrames do Spark em Python, R ou Scala para carregamento e transformação de dados.
Noções básicas do PySpark	Conheça as noções básicas de como usar o PySpark percorrendo exemplos simples.

Explore outros recursos e documentação do Spark.

Tópico	Description
Comparar o Spark Connect com o Spark Classic	Saiba mais sobre as principais diferenças entre o Spark Connect e o Spark Classic no comportamento de execução e análise para evitar problemas inesperados de comportamento e desempenho ao migrar código.
Definir propriedades de configuração do Spark no Azure Databricks	Defina as propriedades de configuração do Spark para personalizar as configurações em seu ambiente de computação e otimizar o desempenho.
Streaming estruturado	Leia uma visão geral do Streaming Estruturado, um mecanismo de processamento quase em tempo real.
Diagnosticar problemas de custo e desempenho usando a interface do usuário do Spark	Saiba como usar a interface do usuário do Spark para ajuste de desempenho, depuração e otimização de custos de trabalhos do Spark.
Usar o Apache Spark MLlib no Azure Databricks	Aprendizado de máquina distribuído usando o Spark MLlib e a integração com estruturas ML populares.

Trabalhe com o Spark usando sua linguagem de programação preferida.

Tópico	Description
Referência para APIs do Apache Spark	Visão geral de referência da API para Apache Spark, incluindo links para referência para operações SQL, DataFrames e RDD do Spark em linguagens com suporte.
PySpark	Use o Python com Spark, incluindo noções básicas do PySpark, fontes de dados personalizadas e otimizações específicas do Python.
API do Pandas no Spark	Aproveite a sintaxe familiar do Pandas com a escalabilidade do Spark para processamento de dados distribuídos.
R para Spark	Trabalhe com r e Spark usando SparkR e sparklyr para computação estatística e análise de dados.
Scala para Spark	Crie aplicativos Spark de alto desempenho usando o Scala com APIs nativas do Spark e segurança de tipo.

Esta página foi útil?