Использование R для Apache Spark
Microsoft Fabric обеспечивает встроенную поддержку R для Apache Spark. Это включает поддержку SparkR и sparklyr, которая позволяет пользователям взаимодействовать с Spark с помощью знакомых интерфейсов Spark или R. Вы можете анализировать данные с помощью R с помощью определений пакетного задания Spark или интерактивных записных книжек Microsoft Fabric.
В этом документе представлен обзор разработки приложений Spark в Synapse с помощью языка R.
Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.
Войдите в Microsoft Fabric.
Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.
Записная книжка Microsoft Fabric — это веб-интерфейс для создания файлов, содержащих динамический код, визуализации и текст повествования. Записные книжки отлично подходят для проверки идей и использования быстрых экспериментов, чтобы получить аналитические сведения по данным. Записные книжки также широко используются при подготовке и визуализации данных, машинном обучении и в других сценариях с большими данными.
Чтобы приступить к работе с R в записных книжках Microsoft Fabric, измените основной язык в верхней части записной книжки, задав параметр языка SparkR (R).
Кроме того, можно использовать несколько языков в одной записной книжке, указав волшебную команду языка в начале ячейки.
%%sparkr
# Enter your R code here
Дополнительные сведения о записных книжках в Microsoft Fabric Analytics см. в статье "Использование записных книжек".
Библиотеки предоставляют многократно используемый код, который вы можете включать в программы или проекты. Чтобы сделать сторонний или локальный код доступным для приложений, можно установить библиотеку в одну из рабочих областей или сеанса записной книжки.
Дополнительные сведения об управлении библиотеками R см. в статье "Управление библиотеками R".
Служебные программы Microsoft Spark (MSSparkUtils) — это встроенный пакет, помогающий легко выполнять распространенные задачи. С помощью MSSparkUtils можно работать с файловыми системами и секретами, получать переменные среды и связывать записные книжки. MSSparkUtils поддерживается для записных книжек R.
Чтобы приступить к работе, можно выполнить следующие команды:
library(notebookutils)
mssparkutils.fs.help()
Дополнительные сведения о поддерживаемых командах MSSparkUtils см. в этой теме: использование служебных программ Microsoft Spark.
SparkR — это пакет R, который предоставляет интерфейс с легким весом для использования Apache Spark из R. SparkR предоставляет реализацию распределенного кадра данных, которая поддерживает такие операции, как выбор, фильтрация, агрегирование и т. д. SparkR также поддерживает распределенное машинное обучение с помощью MLlib.
Дополнительные сведения об использовании SparkR см. в статье "Как использовать SparkR".
sparklyr — это интерфейс R для Apache Spark. Он предоставляет механизм взаимодействия с Spark с помощью знакомых интерфейсов R. С помощью sparklyr можно использовать определения пакетного задания Spark или интерактивные записные книжки Microsoft Fabric.
Дополнительные сведения об использовании sparklyr см. в статье "Как использовать sparklyr".
Tidyverse — это коллекция пакетов R, которые специалисты по обработке и анализу данных обычно используют в повседневном анализе данных. Он включает пакеты для импорта данных (), визуализации данных (readr
), обработки данных (ggplot2
dplyr
, tidyr
функционального программированияpurrr
) и сборки моделей (tidymodels
) и т. д. tidyverse
Пакеты предназначены для эффективной работы и выполнения согласованного набора принципов проектирования. Microsoft Fabric распространяет последнюю стабильную версию tidyverse
каждого выпуска среды выполнения.
Дополнительные сведения об использовании Tidyverse см. в статье "Как использовать Tidyverse".
Экосистема R предлагает несколько библиотек графирования, которые упакованы с множеством различных функций. По умолчанию каждый экземпляр Spark в Microsoft Fabric содержит набор курируемых и популярных библиотек с открытым кодом. Вы также можете добавлять или управлять дополнительными библиотеками или версиями с помощью возможностей управления библиотеками Microsoft Fabric.
Узнайте больше о том, как создавать визуализации R, посещая визуализацию R.