Compartir a través de


Uso de R para Apache Spark

Microsoft Fabric proporciona compatibilidad integrada con R para Apache Spark. Esto incluye compatibilidad con SparkR y sparklyr, que permite a los usuarios interactuar con Spark mediante interfaces conocidas de Spark o R. Puede analizar datos mediante R a través de definiciones de trabajos por lotes de Spark o con cuadernos interactivos de Microsoft Fabric.

En este documento se proporciona información general sobre el desarrollo de aplicaciones Spark en Synapse mediante el lenguaje R.

Requisitos previos

Creación y ejecución de sesiones de cuadernos

Un cuaderno de Microsoft Fabric es una interfaz web para crear archivos que contengan código activo, visualizaciones y texto narrativo. Los cuadernos son un buen lugar para validar ideas y aplicar experimentos rápidos para sacar conclusiones a partir de los datos. Los cuadernos también se usan profusamente en la preparación y visualización de datos, el aprendizaje automático y otros escenarios de macrodatos.

Para empezar a trabajar con R en cuadernos de Microsoft Fabric, cambie el lenguaje principal en la parte superior del cuaderno estableciendo la opción de lenguaje en SparkR (R).

Asimismo, para usar varios lenguajes en un cuaderno, puede especificar el comando magic de lenguaje al principio de una celda.

%%sparkr
# Enter your R code here

Para más información sobre los cuadernos de Microsoft Fabric Analytics, vea Uso de cuadernos.

Instalar paquetes

Las bibliotecas proporcionan código reutilizable que se puede incluir en los programas o proyectos. Para que el código de terceros o local esté disponible para sus aplicaciones, puede instalar una biblioteca en una de las sesiones de su área de trabajo o cuaderno.

Para más información sobre cómo administrar bibliotecas de R, vea Administración de bibliotecas de R.

Utilidades de cuaderno

Las utilidades de Spark para Microsoft (MSSparkUtils) son un paquete integrado que le ayuda a realizar las tareas más comunes con mayor facilidad. Puede usar MSSparkUtils para trabajar con sistemas de archivos, obtener variables de entorno, encadenar cuadernos entre sí y trabajar con secretos. MSSparkUtils es compatible con cuadernos de R.

Para comenzar, puede ejecutar los siguientes comandos:

library(notebookutils)
mssparkutils.fs.help()

Obtenga más información sobre los comandos de MSSparkUtils admitidos en Uso de utilidades de Microsoft Spark.

Uso de SparkR

SparkR es un paquete de R que proporciona un front-end ligero para usar Apache Spark desde R. SparkR proporciona una implementación de trama de datos distribuida que admite operaciones como la selección, el filtrado o la agregación de elementos, entre otras. Igualmente, SparkR también admite el aprendizaje automático distribuido mediante MLlib.

Para más información sobre cómo usar SparkR, consulte Uso de SparkR.

Uso de sparklyr

sparklyr es una interfaz de R para Apache Spark. Esta interfaz proporciona un mecanismo para interactuar con Spark mediante interfaces de R conocidas. Puede usar sparklyr a través de definiciones de trabajo por lotes de Spark o con cuadernos interactivos de Microsoft Fabric.

Para más información sobre cómo usar sparklyr, visite Uso de sparklyr.

Uso de Tidyverse

Tidyverse es una colección de paquetes de R que los científicos de datos suelen usar en análisis de datos cotidianos. Incluye paquetes para la importación de datos (readr), visualización de datos (ggplot2), manipulación de datos (dplyr, tidyr), programación funcional (purrr) y creación de modelos (tidymodels), etc. Los paquetes de tidyverse están diseñados para trabajar juntos sin problemas y seguir un conjunto coherente de principios de diseño. Microsoft Fabric distribuye la versión estable más reciente de tidyverse con cada versión en tiempo de ejecución.

Para más información sobre cómo usar Tidyverse, visite Uso de Tidyverse.

Visualización con R

El ecosistema de R ofrece varias bibliotecas de grafos que vienen empaquetadas con muchas características diferentes. De forma predeterminada, cada instancia de Spark en Microsoft Fabric contiene un conjunto seleccionado de bibliotecas populares de código abierto. También puede agregar o administrar bibliotecas o versiones adicionales mediante las funcionalidades de administración de bibliotecas de Microsoft Fabric .

Para más información sobre cómo crear visualizaciones de R, visite Visualización de R.