Compartilhar via


sparklyr

O Azure Databricks oferece suporte ao sparklyr em notebooks, trabalhos e no RStudio Desktop. Esse artigo descreve como você pode usar o sparklyr e fornece scripts de exemplo que você pode executar. Consulte Interface do R para Apache Spark para obter mais informações.

Requisitos

O Azure Databricks distribui a versão estável mais recente do sparklyr a cada liberação do runtime. Você pode usar o sparklyr em notebooks do R no Azure Databricks ou no RStudio Server hospedado no Azure Databricks, importando a versão instalada do sparklyr.

No RStudio Desktop, o Databricks Connect permite conectar o sparklyr do computador local a clusters do Azure Databricks e executar código do Apache Spark. Consulte Usar sparklyr e RStudio Desktop com o Databricks Connect.

Conectar o sparklyr a clusters do Azure Databricks

Para estabelecer uma conexão do sparklyr, você pode usar "databricks" como método de conexão em spark_connect(). Não é necessário nenhum parâmetro além de spark_connect(), nem é preciso chamar spark_install(), pois o Spark já está instalado em um cluster do Azure Databricks.

# Calling spark_connect() requires the sparklyr package to be loaded first.
library(sparklyr)

# Create a sparklyr connection.
sc <- spark_connect(method = "databricks")

Barras de andamento e interface do usuário do Spark com sparklyr

Se você atribuir o objeto de conexão sparklyr a uma variável chamada sc, como no exemplo acima, verá barras de andamento do Spark no notebook após cada comando que dispare trabalhos do Spark. Além disso, você pode clicar no link ao lado da barra de andamento para exibir a interface do usuário do Spark associada ao trabalho específico do Spark.

Progresso do Sparklyr

Usar o sparklyr

Após a instalação do sparklyr e o estabelecimento da conexão, todas as outras APIs do sparklyr funcionam normalmente. Consulte o notebook de exemplo para ver alguns usos.

O sparklyr geralmente é usado em conjunto com outros pacotes tidyverse, como dplyr. Para sua comodidade, a maioria desses pacotes é pré-instalada no Databricks. Você pode, simplesmente, importá-los e começar a usar a API.

Usar o sparklyr e o SparkR juntos

O SparkR e o sparklyr podem ser usados em conjunto em um único notebook ou trabalho. Você pode importar o SparkR juntamente com o sparklyr e usar sua funcionalidade. Em notebooks do Azure Databricks, a conexão do SparkR é pré-configurada.

Algumas das funções no SparkR mascaram várias outras no dplyr:

> library(SparkR)
The following objects are masked from ‘package:dplyr’:

arrange, between, coalesce, collect, contains, count, cume_dist,
dense_rank, desc, distinct, explain, filter, first, group_by,
intersect, lag, last, lead, mutate, n, n_distinct, ntile,
percent_rank, rename, row_number, sample_frac, select, sql,
summarize, union

Se você importar o SparkR após importar o dplyr, poderá referenciar as funções no dplyr usando os nomes totalmente qualificados, por exemplo, dplyr::arrange(). Da mesma forma, se você importar o dplyr após o SparkR, as funções no SparkR serão mascaradas pelo dplyr.

Como alternativa, desconecte seletivamente um dos dois pacotes enquanto não precisar dele.

detach("package:dplyr")

Confira também Comparação entre o SparkR e o sparklyr.

Usar o sparklyr em trabalhos spark-submit

Você pode executar scripts que usem o sparklyr no Azure Databricks como trabalhos spark-submit, com pequenas modificações de código. Algumas das instruções acima não se aplicam ao uso do sparklyr em trabalhos spark-submit no Azure Databricks. Em particular, você deve fornecer a URL mestra do Spark para spark_connect. Por exemplo:

library(sparklyr)

sc <- spark_connect(method = "databricks", spark_home = "<spark-home-path>")
...

Recursos sem suporte

O Azure Databricks oferece suporte a métodos do sparklyr, como spark_web() e spark_log(), que exigem um navegador local. No entanto, como a interface do usuário do Spark é incorporada ao Azure Databricks, você pode inspecionar trabalhos e logs do Spark facilmente. Confira Driver de computação e logs de trabalho.

Notebook de exemplo: demonstração do Sparklyr

Notebook do sparklyr

Obter notebook

Para obter exemplos adicionais, consulte Trabalhar com DataFrames e tabelas no R.