Ler em inglês

Partilhar via


Usar R para Apache Spark

O Microsoft Fabric fornece suporte R integrado para Apache Spark. Isso inclui suporte para SparkR e sparklyr, que permite que os usuários interajam com o Spark usando interfaces familiares do Spark ou R. Você pode analisar dados usando R por meio de definições de trabalho em lote do Spark ou com blocos de anotações interativos do Microsoft Fabric.

Este documento fornece uma visão geral do desenvolvimento de aplicativos Spark no Synapse usando a linguagem R.

Pré-requisitos

  • Obtenha uma assinatura do Microsoft Fabric. Ou inscreva-se para uma avaliação gratuita do Microsoft Fabric.

  • Entre no Microsoft Fabric.

  • Use o seletor de experiência no lado esquerdo da sua página inicial para alternar para a experiência Synapse Data Science.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Criar e executar sessões de bloco de notas

O bloco de anotações do Microsoft Fabric é uma interface da Web para você criar arquivos que contêm código dinâmico, visualizações e texto narrativo. Os blocos de notas são um bom local para validar ideias e utilizar experiências rápidas para obter informações dos seus dados. Os notebooks também são amplamente utilizados na preparação de dados, visualização de dados, aprendizado de máquina e outros cenários de big data.

Para começar a usar o R em blocos de anotações do Microsoft Fabric, altere o idioma principal na parte superior do bloco de anotações definindo a opção de idioma como SparkR (R).

Além disso, você pode usar vários idiomas em um bloco de anotações especificando o comando language magic no início de uma célula.

%%sparkr
# Enter your R code here

Para saber mais sobre blocos de anotações no Microsoft Fabric Analytics, consulte Como usar blocos de anotações.

Instalar pacotes

As bibliotecas fornecem código reutilizável que você pode querer incluir em seus programas ou projetos. Para disponibilizar código de terceiros ou criado localmente para seus aplicativos, você pode instalar uma biblioteca em um de seus espaços de trabalho ou sessão de bloco de anotações.

Para saber mais sobre como gerenciar bibliotecas R, consulte Gerenciamento de bibliotecas R.

Utilitários para notebook

Microsoft Spark Utilities (MSSparkUtils) é um pacote interno para ajudá-lo a executar facilmente tarefas comuns. Você pode usar o MSSparkUtils para trabalhar com sistemas de arquivos, obter variáveis de ambiente, encadear blocos de anotações e trabalhar com segredos. MSSparkUtils é suportado para notebooks R.

Para começar, você pode executar os seguintes comandos:

library(notebookutils)
mssparkutils.fs.help()

Saiba mais sobre os comandos MSSparkUtils suportados em Usar utilitários Microsoft Spark.

Utilizar o SparkR

O SparkR é um pacote R que fornece um frontend leve para usar o Apache Spark da R. O SparkR fornece uma implementação de quadro de dados distribuído que suporta operações como seleção, filtragem, agregação, etc. O SparkR também suporta aprendizado de máquina distribuído usando MLlib.

Você pode saber mais sobre como usar o SparkR visitando Como usar o SparkR.

Use o sparklyr

sparklyr é uma interface R para o Apache Spark. Ele fornece um mecanismo para interagir com o Spark usando interfaces R familiares. Você pode usar o sparklyr por meio de definições de trabalho em lote do Spark ou com blocos de anotações interativos do Microsoft Fabric.

Para saber mais sobre como usar o sparklyr, visite Como usar o sparklyr.

Use Tidyverse

Tidyverse é uma coleção de pacotes R que os cientistas de dados comumente usam em análises de dados diárias. Inclui pacotes para importação de dados (), visualização de dados (), manipulação de dados (, ), programação funcional (), e construção de modelos (readrpurrrggplot2dplyrtidymodels) etc. tidyr Os pacotes são projetados para trabalhar juntos perfeitamente tidyverse e seguir um conjunto consistente de princípios de design. O Microsoft Fabric distribui a versão estável mais recente do com cada versão de tempo de tidyverse execução.

Para saber mais sobre como usar o Tidyverse, visite Como usar o Tidyverse.

Visualização R

O ecossistema R oferece várias bibliotecas gráficas que vêm repletas de muitos recursos diferentes. Por padrão, cada instância do Spark no Microsoft Fabric contém um conjunto de bibliotecas de código aberto selecionadas e populares. Você também pode adicionar ou gerenciar bibliotecas ou versões extras usando os recursos de gerenciamento de bibliotecas do Microsoft Fabric.

Saiba mais sobre como criar visualizações R visitando a visualização R.