Ler em inglês

Compartilhar via


Use o R para Apache Spark

O Microsoft Fabric fornece suporte interno ao R para Apache Spark. Isso também inclui suporte para SparkR e SparklyR, o que permite que os usuários interajam com o Spark usando interfaces Spark ou R familiares. Você pode analisar dados usando R por meio de definições de trabalho em lote do Spark ou com notebooks interativos do Microsoft Fabric.

Esse documento fornece uma visão geral do desenvolvimento de aplicativos Spark no Synapse usando a linguagem R.

Pré-requisitos

Criar e executar sessões de notebook

O bloco de anotações do Microsoft Fabric é uma interface da Web para você criar arquivos que contêm código ativo, visualizações e texto narrativo. Os notebooks são um bom lugar para validar ideias e fazer experimentos rápidos para obter insights de seus dados. Os notebooks também são amplamente usados na preparação e visualização de dados, no aprendizado de máquina e em outros cenários de Big Data.

Para começar a usar o R nos notebooks do Microsoft Fabric, altere o idioma principal na parte superior do notebook definindo a opção de idioma como SparkR (R).

Além disso, você pode usar várias linguagens em um notebook especificando o comando magic da linguagem no início de uma célula.

%%sparkr
# Enter your R code here

Para saber mais sobre notebooks no Microsoft Fabric Analytics, consulte Como usar notebooks.

Instalar Pacotes

As bibliotecas fornecem código reutilizável que você pode querer incluir em seus programas ou projetos. Para disponibilizar código de terceiros ou criado localmente para seus aplicativos, você pode instalar uma biblioteca em um de seus espaços de trabalho ou sessões de notebook.

Para saber mais sobre como gerenciar bibliotecas do R, confira Gerenciamento de biblioteca do R.

Utilitários de notebook

Os utilitários do Microsoft Spark (MSSparkUtils) são um pacote interno para ajudar você a executar tarefas comuns com facilidade. Você pode usar o MSSparkUtils para trabalhar com sistemas de arquivos, obter variáveis de ambiente, encadear notebooks e trabalhar com segredos. O MSSparkUtils tem suporte em notebooks do R.

Para começar, você pode executar os seguintes comandos:

library(notebookutils)
mssparkutils.fs.help()

Saiba mais sobre os comandos do MSSparkUtils compatíveis em Usar utilitários do Microsoft Spark.

Usar o SparkR

O SparkR é um pacote do R que fornece um front-end leve para usar o Apache Spark do R. O SparkR fornece uma implementação de quadro de dados distribuído que dá suporte a operações como seleção, filtragem, agregação, etc. O SparkR também dá suporte ao aprendizado de máquina distribuído usando o MLlib.

Saiba mais sobre como usar o SparkR visitando Como usar o SparkR.

Usar o sparklyr

O sparklyr é uma interface do R para Apache Spark. Ele fornece um mecanismo para interagir com o Spark usando interfaces do R familiares. Você pode usar o sparklyr por meio de definições de trabalho em lotes do Spark ou com notebooks interativos do Microsoft Fabric.

Para saber mais sobre como usar o SparklyR, visite Como usar o SparklyR.

Usar Tidyverse

O Tidyverse é uma coleção de pacotes R que os cientistas de dados normalmente usam em análises de dados diárias. Ele inclui pacotes para importação de dados (readr), visualização de dados (ggplot2), manipulação de dados (dplyr, tidyr), programação funcional (purrr) e criação de modelos (tidymodels) etc. Os pacotes em tidyverse são projetados para trabalhar juntos perfeitamente e seguir um conjunto consistente de princípios de design. O Microsoft Fabric distribui a versão estável mais recente do tidyverse a cada lançamento do runtime.

Para saber mais sobre como usar o Tidyverse, visite Como usar o Tidyverse.

Visualização do R

O ecossistema do R oferece várias bibliotecas de criação de grafo que vêm repletas de muitos recursos diferentes. Por padrão, cada instância do Spark no Microsoft Fabric contém um conjunto de bibliotecas de código aberto populares e selecionadas. Adicione ou gerencie bibliotecas ou versões extras usando os recursos de gerenciamento da biblioteca do Microsoft Fabric.

Saiba mais sobre como criar visualizações do R visitando a Visualização do R.