Uso de R para Apache Spark
Microsoft Fabric proporciona compatibilidad integrada con R para Apache Spark. Esto incluye compatibilidad con SparkR y sparklyr, que permite a los usuarios interactuar con Spark mediante interfaces conocidas de Spark o R. Puede analizar datos mediante R mediante definiciones de trabajos por lotes de Spark o con cuadernos interactivos de Microsoft Fabric.
Importante
Microsoft Fabric se encuentra actualmente en versión preliminar. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí.
En este documento se proporciona información general sobre el desarrollo de aplicaciones Spark en Synapse mediante el lenguaje R.
Requisitos previos
Una suscripción de Power BI Premium. Si no tiene una, consulte Cómo comprar Power BI Premium.
Un área de trabajo de Power BI con capacidad Premium asignada. Si no tiene un área de trabajo, siga los pasos descritos en Creación de un área de trabajo para crear una y asignarla a una capacidad Premium.
Inicie sesión en Microsoft Fabric.
Creación y ejecución de sesiones de cuadernos
Microsoft Fabric Notebook es una interfaz web para que pueda crear archivos que contengan código dinámico, visualizaciones y texto narrativo. Los cuadernos son un buen lugar para validar ideas y aplicar experimentos rápidos para sacar conclusiones a partir de los datos. Los cuadernos también se usan profusamente en la preparación y visualización de datos, el aprendizaje automático y otros escenarios de macrodatos.
Para empezar a trabajar con R en cuadernos de Microsoft Fabric, cambie el idioma principal en la parte superior del cuaderno estableciendo la opción de idioma en SparkR (R).
Asimismo, para usar varios lenguajes en un cuaderno, puede especificar el comando magic de lenguaje al principio de una celda.
%%sparkr
# Enter your R code here
Para más información sobre los cuadernos de Microsoft Fabric Analytics, consulte Uso de cuadernos.
Instalar paquetes
Las bibliotecas proporcionan código reutilizable que se puede incluir en los programas o proyectos. Para que el código de terceros o compilado localmente esté disponible para las aplicaciones, puede instalar una biblioteca en una de las sesiones del área de trabajo o del cuaderno.
Para más información sobre cómo administrar bibliotecas de R, consulte Administración de bibliotecas de R.
Utilidades de cuaderno
Las utilidades de Spark para Microsoft (MSSparkUtils) son un paquete integrado que le ayuda a realizar las tareas más comunes con mayor facilidad. Puede usar MSSparkUtils para trabajar con sistemas de archivos, obtener variables de entorno, encadenar cuadernos entre sí y trabajar con secretos. MSSparkUtils es compatible con cuadernos de R.
Para comenzar, puede ejecutar los siguientes comandos:
library(notebookutils)
mssparkutils.fs.help()
Obtenga más información sobre los comandos de MSSparkUtils admitidos en Uso de utilidades de Microsoft Spark.
Uso de SparkR
SparkR es un paquete de R que proporciona un front-end ligero para usar Apache Spark desde R. SparkR proporciona una implementación de trama de datos distribuida que admite operaciones como la selección, el filtrado o la agregación de elementos, entre otras. Igualmente, SparkR también admite el aprendizaje automático distribuido mediante MLlib.
Para más información sobre cómo usar SparkR, consulte Uso de SparkR.
Uso de sparklyr
sparklyr es una interfaz de R para Apache Spark. Esta interfaz proporciona un mecanismo para interactuar con Spark mediante interfaces de R conocidas. Puede usar sparklyr a través de definiciones de trabajos por lotes de Spark o con cuadernos interactivos de Microsoft Fabric.
Para más información sobre cómo usar sparklyr, visite Uso de sparklyr.
Nota:
Todavía no se admite el uso de SparkR y sparklyr en la misma sesión del cuaderno.
Uso de Tidyverse
Tidyverse es una colección de paquetes de R que los científicos de datos suelen usar en análisis de datos cotidianos. Incluye paquetes para la importación de datos (readr
), visualización de datos (ggplot2
), manipulación de datos (dplyr
, tidyr
), programación funcional (purrr
) y creación de modelos (tidymodels
), etc. Los paquetes de tidyverse
están diseñados para trabajar juntos sin problemas y seguir un conjunto coherente de principios de diseño. Microsoft Fabric distribuye la versión estable más reciente de con cada versión en tiempo de tidyverse
ejecución.
Para obtener más información sobre cómo usar Tidyverse, visite Uso de Tidyverse.
Visualización de R
El ecosistema de R ofrece varias bibliotecas de grafos que vienen empaquetadas con muchas características diferentes. De forma predeterminada, cada instancia de Spark de Microsoft Fabric contiene un conjunto de bibliotecas de código abierto seleccionadas y populares. También puede agregar o administrar bibliotecas o versiones adicionales mediante las funcionalidades de administración de bibliotecas de Microsoft Fabric.
Para más información sobre cómo crear visualizaciones de R, visite Visualización de R.