Azure Databricks para programadores de R

2025-03-31

Esta seção fornece um guia para desenvolver blocos de anotações e trabalhos no Azure Databricks usando a linguagem R.

Um fluxo de trabalho básico para começar é:

Importar código: importe seu próprio código de arquivos ou repositórios Git ou tente um tutorial listado abaixo. O Databricks recomenda aprender a usar blocos de anotações interativos do Azure Databricks.
Execute seu código em um cluster: crie seu próprio cluster ou verifique se você tem permissões para usar um cluster compartilhado. Anexe o bloco de notas ao cluster e execute o bloco de notas.

Além disso, você pode se ramificar em tópicos mais específicos:

Trabalhar com conjuntos de dados maiores usando o Apache Spark
Adicionar visualizações
Automatiza a tua carga de trabalho como uma função
Use o aprendizado de máquina para analisar seus dados
Usar ferramentas de desenvolvedor R

Tutoriais

Os tutoriais a seguir fornecem código de exemplo e blocos de anotações para aprender sobre fluxos de trabalho comuns. Consulte Importar um bloco de notas para obter instruções sobre como importar exemplos de blocos de notas para a sua área de trabalho.

Referência

As subseções a seguir listam os principais recursos e dicas para ajudá-lo a começar a desenvolver no Azure Databricks com R.

O Azure Databricks dá suporte a duas APIs que fornecem uma interface R para o Apache Spark: SparkR e sparklyr.

Faísca

Importante

O SparkR no Databricks foi preterido no Databricks Runtime 16.0 e superior. A Databricks recomenda usar sparklyr em vez disso.

Estes artigos fornecem uma introdução e referência para o SparkR. SparkR é uma interface R para Apache Spark que fornece uma implementação de quadro de dados distribuído. O SparkR suporta operações como seleção, filtragem e agregação (semelhante a quadros de dados R), mas em grandes conjuntos de dados.

Brilho

Este artigo fornece uma introdução ao sparklyr. sparklyr é uma interface R para Apache Spark que fornece funcionalidade semelhante a dplyr, broome DBI.

Brilho

Comparando SparkR e Sparklyr

Este artigo explica as principais semelhanças e diferenças entre o SparkR e o sparklyr.

Comparando SparkR e Sparklyr

Trabalhar com DataFrames e tabelas com SparkR e sparklyr

Este artigo descreve como usar R, SparkR, sparklyr e dplyr para trabalhar com tabelas R data.frames, Spark DataFrames e Spark no Azure Databricks.

Trabalhar com DataFrames e tabelas no R

Gerencie código com blocos de anotações e pastas Databricks Git

Os notebooks do Azure Databricks suportam R. Estes notebooks fornecem funcionalidade semelhante à do Jupyter, mas com adições como visualizações integradas usando big data, integrações com Apache Spark para depuração e monitorização de desempenho, e integrações MLflow para rastrear experiências de machine learning. Comece por importar um bloco de notas. Depois de ter acesso a um cluster, poderá anexar um notebook ao cluster e executar o notebook.

As pastas Git do Azure Databricks permitem que os usuários sincronizem blocos de anotações e outros arquivos com repositórios Git. As pastas Git do Azure Databricks ajudam com o controle de versão e a colaboração de código e podem simplificar a importação de um repositório completo de código para o Azure Databricks, a exibição de versões anteriores do bloco de anotações e a integração com o desenvolvimento do IDE. Comece por clonar um repositório Git remoto. Em seguida, você pode abrir ou criar blocos de anotações com o clone do repositório, anexar o bloco de anotações a um cluster e executar o bloco de anotações.

Agrupamentos

A computação do Azure Databricks permite gerir a computação para nós individuais e grandes clusters. Você pode personalizar o hardware e as bibliotecas do cluster de acordo com suas necessidades. Depois de ter acesso a um cluster, você pode anexar um bloco de anotações ao cluster ou executar um trabalho no cluster.

Para pequenas cargas de trabalho que requerem apenas nós individuais, os cientistas de dados podem usar computação de nó individual para redução de custos.
Para obter dicas detalhadas, consulte Recomendações de configuração de computação.
Os administradores podem configurar políticas de clusters para simplificar e orientar a criação de clusters.

R de nó único e R distribuído

Os clusters do Azure Databricks constituem um nó de driver Apache Spark e zero ou mais nós de worker Spark (conhecidos também como executor). O nó do driver mantém o estado do bloco de anotações anexado, mantém os comandos , interpreta o SparkContextbloco de anotações e a biblioteca e executa o mestre do Spark que coordena com os executores do Spark. Os nós de trabalho executam os executores do Spark, havendo um executor do Spark por cada nó de trabalho.

Um único nó do agrupamento tem um nó de controlo e nenhum nós de execução, com o Spark em execução no modo local para suportar o acesso a tabelas geridas pelo Azure Databricks. Os clusters de nó único suportam RStudio, notebooks e bibliotecas e são úteis para projetos R que não dependem do Spark para big data ou processamento paralelo. Consulte de computação de nó único .

Para tamanhos de dados que o R tem dificuldade em processar (muitos gigabytes ou petabytes), você deve usar clusters distribuídos ou de vários nós. Os clusters distribuídos têm um nó controlador e um ou mais nós de trabalho. Os clusters distribuídos suportam não apenas RStudio, notebooks e bibliotecas, mas também pacotes R, como SparkR e sparklyr, que são projetados exclusivamente para usar clusters distribuídos por meio do SparkContext. Esses pacotes fornecem APIs SQL e DataFrame familiares, que permitem atribuir e executar várias tarefas e comandos do Spark em paralelo entre nós de trabalho. Para saber mais sobre o sparklyr e o SparkR, consulte Comparando o SparkR e o sparklyr.

Algumas funções do SparkR e do sparklyr que tiram vantagem particular da distribuição de trabalho relacionado entre nós de trabalho incluem o seguinte:

sparklyr::spark_apply: Executa código R arbitrário em escala dentro de um cluster. Isso é especialmente útil para usar a funcionalidade que está disponível apenas em R ou em pacotes R que não estão disponíveis no Apache Spark nem em outros pacotes do Spark.
SparkR::dapply: Aplica a função especificada a cada partição de um SparkDataFrame.
SparkR::dapplyCollect: Aplica a função especificada a cada partição de um SparkDataFrame e recolhe os resultados de volta para R como um data.frame.
SparkR::gapply: Agrupa um SparkDataFrame usando as colunas especificadas e aplica a função R especificada a cada grupo.
SparkR::gapplyCollect: Agrupa um SparkDataFrame usando as colunas especificadas, aplica a função R especificada a cada grupo e coleta o resultado de volta para R como um data.frame.
SparkR::spark.lapply: Executa a função especificada em uma lista de elementos, distribuindo os cálculos com o Spark.

Para obter exemplos, consulte o bloco de anotações Distributed R: User Defined Functions no Spark.

Serviços de contêiner Databricks

O Databricks Container Services permite especificar uma imagem do Docker ao criar um cluster. O Databricks fornece a imagem base databricksruntime/rbase no Docker Hub como um exemplo para iniciar um cluster Databricks Container Services com suporte a R. Consulte também o Dockerfile usado para gerar essa imagem base.

Bibliotecas

Os clusters do Azure Databricks usam o Databricks Runtime, que fornece muitas bibliotecas populares prontas para uso, incluindo Apache Spark, Delta Lake e muito mais. Você também pode instalar pacotes R personalizados ou de terceiros adicionais em bibliotecas para usar com blocos de anotações e trabalhos.

Comece com as bibliotecas padrão nas notas de versão e compatibilidade do Databricks Runtime. Use o Databricks Runtime para Machine Learning para cargas de trabalho de aprendizagem automática. Para obter listas completas de bibliotecas pré-instaladas, consulte a secção "Bibliotecas R Instaladas" no Databricks Runtime para a versão de destino em notas de versão e compatibilidade do Databricks Runtime.

Você pode personalizar o seu ambiente utilizando bibliotecas R de escopo de caderno de anotações, que permitem modificar o seu caderno ou ambiente de execução com bibliotecas do CRAN ou de outros repositórios. Para fazer isso, pode usar a função familiar install.packages do utils. O exemplo a seguir instala o pacote Arrow R do repositório CRAN padrão:

install.packages("arrow")

Se você precisar de uma versão mais antiga do que a incluída no Databricks Runtime, poderá usar um bloco de anotações para executar install_version função a partir do devtools. O exemplo a seguir instala o dplyr versão 0.7.4 do CRAN:

require(devtools)

install_version(
  package = "dplyr",
  version = "0.7.4",
  repos   = "http://cran.r-project.org"
)

Os pacotes instalados dessa forma estão disponíveis em um cluster. Estão limitados ao utilizador que os instala. Isso permite que você instale várias versões do mesmo pacote na mesma computação sem criar conflitos de pacote.

Você pode instalar outras bibliotecas como bibliotecas de escopo computacional conforme necessário, por exemplo, a partir do CRAN. Para fazer isso, na interface do usuário do cluster, clique em Bibliotecas > Instalar nova > CRAN e especifique o nome da biblioteca. Essa abordagem é especialmente importante para quando você deseja chamar funções definidas pelo usuário com SparkR ou sparklyr.

Para obter mais detalhes, consulte Instalar bibliotecas.

Para instalar um pacote personalizado em uma biblioteca:

Crie seu pacote personalizado a partir da linha de comando ou usando RStudio.
Copie o arquivo de pacote personalizado da máquina de desenvolvimento para o espaço de trabalho do Azure Databricks. Para obter opções, consulte Instalar bibliotecas.

Instale o pacote personalizado numa biblioteca executando install.packages.

Por exemplo, a partir de um bloco de notas na sua área de trabalho:

install.packages(
  pkgs  = "/path/to/tar/file/<custom-package>.tar.gz",
  type  = "source",
  repos = NULL
)

Ou:

%sh
R CMD INSTALL /path/to/tar/file/<custom-package>.tar.gz

Depois de instalar um pacote personalizado em uma biblioteca, adicione a biblioteca ao caminho de pesquisa e, em seguida, carregue a biblioteca com um único comando.

Por exemplo:

# Add the library to the search path one time.
.libPaths(c("/path/to/tar/file/", .libPaths()))

# Load the library. You do not need to add the library to the search path again.
library(<custom-package>)

Para instalar um pacote personalizado como uma biblioteca em cada nó de um cluster, deve-se usar O que são scripts de inicialização?.

Visualizações

Os blocos de anotações do Azure Databricks R dão suporte a vários tipos de visualizações usando a display função.

Visualizações em R

Tarefas

Você pode automatizar as cargas de trabalho R como uma tarefa de notebook agendada ou acionada no Azure Databricks.

Para obter detalhes sobre como criar um trabalho por meio da interface do usuário, consulte Configurar e editar trabalhos do Lakeflow.
A API de trabalhos permite criar, editar e excluir trabalhos.
O Databricks CLI fornece uma interface de linha de comando conveniente para chamar a API de Tarefas.

Aprendizagem automática

O Databricks suporta uma ampla variedade de cargas de trabalho de aprendizado de máquina (ML), incluindo ML tradicional em dados tabulares, aprendizado profundo para visão computacional e processamento de linguagem natural, sistemas de recomendação, análise de gráficos e muito mais. Para obter informações gerais sobre aprendizado de máquina no Azure Databricks, consulte Databricks Runtime for Machine Learning.

Para algoritmos de ML, você pode usar bibliotecas pré-instaladas no Databricks Runtime for Machine Learning. Você também pode instalar bibliotecas personalizadas.

Para operações de aprendizado de máquina (MLOps), o Azure Databricks fornece um serviço gerenciado para a biblioteca de código aberto MLflow. Com o MLflow Tracking, você pode registrar o desenvolvimento de modelos e salvar modelos em formatos reutilizáveis. Você pode usar o MLflow Model Registry para gerenciar e automatizar a promoção de modelos para produção. Jobs e Model Serving permitem hospedar modelos como trabalhos em lote e streaming como pontos de extremidade REST. Para obter mais informações e exemplos, consulte o ciclo de vida do modelo MLflow for ML ou os documentos da API MLflow R.

Ferramentas de desenvolvimento R

Para além dos blocos de notas do Azure Databricks, também pode utilizar as seguintes ferramentas para programadores de R:

RStudio on Azure Databricks (RStudio no Azure Databricks)
Shiny no Azure Databricks
renv no Azure Databricks

Utilize o SparkR e o RStudio Desktop com o Databricks Connect.
Utilize o sparklyr e o RStudio Desktop com o Databricks Connect.

Personalização da sessão R

No Databricks Runtime 12.2 LTS e superior, as sessões R podem ser personalizadas usando arquivos de perfil a nível de site (.Rprofile). Os blocos de anotações R originarão o arquivo como código R durante a inicialização. Para modificar o arquivo, localize o valor de R_HOME e modifique $R_HOME/etc/Rprofile.siteo . Observe que o Databricks adicionou configuração no arquivo para garantir a funcionalidade adequada para o RStudio hospedado no Azure Databricks. Remover qualquer um deles pode fazer com que o RStudio não funcione como esperado.

No Databricks Runtime 11.3 LTS e inferior, esse comportamento pode ser habilitado definindo a variável DATABRICKS_ENABLE_RPROFILE=truede ambiente .

Recursos adicionais

Base de Dados de Conhecimento

Partilhar via

Azure Databricks para programadores de R

Tutoriais

Referência

Faísca

Brilho

Comparando SparkR e Sparklyr

Trabalhar com DataFrames e tabelas com SparkR e sparklyr

Gerencie código com blocos de anotações e pastas Databricks Git

Agrupamentos

R de nó único e R distribuído

Serviços de contêiner Databricks

Bibliotecas

Visualizações

Tarefas

Aprendizagem automática

Ferramentas de desenvolvimento R

Personalização da sessão R

Recursos adicionais

Comentários

Recursos adicionais