Использование R для Apache Spark
Microsoft Fabric предоставляет встроенную поддержку R для Apache Spark. Сюда входит поддержка SparkR и sparklyr, которая позволяет пользователям взаимодействовать со Spark с помощью знакомых интерфейсов Spark или R. Вы можете анализировать данные с помощью R с помощью определений пакетных заданий Spark или интерактивных записных книжек Microsoft Fabric.
Важно!
Microsoft Fabric в настоящее время находится на этапе предварительной версии. Эти сведения относятся к предварительной версии продукта, который может быть существенно изменен перед выпуском. Корпорация Майкрософт не дает никаких гарантий, явных или подразумеваемых, в отношении предоставленной здесь информации.
В этом документе представлен обзор разработки приложений Spark в Synapse на языке R.
Предварительные требования
Подписка Power BI Premium. Если у вас ее нет, см. раздел Как приобрести Power BI Premium.
Рабочая область Power BI с назначенной емкостью Premium. Если у вас нет рабочей области, выполните действия, описанные в разделе Создание рабочей области , чтобы создать ее и назначить ее емкости Premium.
Войдите в Microsoft Fabric.
Создание и запуск сеансов записной книжки
Записная книжка Microsoft Fabric — это веб-интерфейс, позволяющий создавать файлы, содержащие динамический код, визуализации и описательный текст. Записные книжки отлично подходят для проверки идей и использования быстрых экспериментов, чтобы получить аналитические сведения по данным. Записные книжки также широко используются при подготовке и визуализации данных, машинном обучении и в других сценариях с большими данными.
Чтобы приступить к работе с R в записных книжках Microsoft Fabric, измените основной язык в верхней части записной книжки, задав для параметра язык значение SparkR (R).
Кроме того, можно использовать несколько языков в одной записной книжке, указав магическую команду языка в начале ячейки.
%%sparkr
# Enter your R code here
Дополнительные сведения о записных книжках в Microsoft Fabric Analytics см. в статье Использование записных книжек.
Установка пакетов
Библиотеки предоставляют многократно используемый код, который вы можете включать в программы или проекты. Чтобы сделать сторонний или локально созданный код доступным для приложений, можно установить библиотеку в одном из сеансов рабочей области или записной книжки.
Дополнительные сведения об управлении библиотеками R см. в статье Управление библиотеками R.
Служебные программы записных книжек
Служебные программы Microsoft Spark (MSSparkUtils) — это встроенный пакет, помогающий легко выполнять распространенные задачи. С помощью MSSparkUtils можно работать с файловыми системами и секретами, получать переменные среды и связывать записные книжки. MSSparkUtils поддерживается для записных книжек R.
Чтобы приступить к работе, можно выполнить следующие команды:
library(notebookutils)
mssparkutils.fs.help()
Дополнительные сведения о поддерживаемых командах MSSparkUtils см. в статье Использование служебных программ Microsoft Spark.
Использование SparkR
SparkR — это пакет R, который предоставляет легкий интерфейс для использования Apache Spark из R. SparkR предоставляет реализацию распределенного кадра данных, которая поддерживает такие операции, как выбор, фильтрация, агрегирование и т. д. SparkR также поддерживает распределенное машинное обучение с помощью MLlib.
Дополнительные сведения об использовании SparkR см. в статье Использование SparkR.
Использование sparklyr
sparklyr — это интерфейс R для Apache Spark. Он предоставляет механизм взаимодействия со Spark с помощью знакомых интерфейсов R. Sparklyr можно использовать с помощью определений пакетных заданий Spark или интерактивных записных книжек Microsoft Fabric.
Дополнительные сведения об использовании sparklyr см. в статье Использование sparklyr.
Примечание
Использование SparkR и sparklyr в одном сеансе записной книжки пока не поддерживается.
Использование Tidyverse
Tidyverse — это коллекция пакетов R, которые специалисты по обработке и анализу данных обычно используют в повседневном анализе данных. Он включает пакеты для импорта данных (readr
), визуализации данных (ggplot2
), обработки данных (dplyr
, tidyr
), функционального программирования (purrr
) и создания моделей (tidymodels
) и т. д. Пакеты в tidyverse
предназначены для эффективной совместной работы и следуют согласованному набору принципов проектирования. Microsoft Fabric распространяет последнюю стабильную версию с каждым выпуском tidyverse
среды выполнения.
Дополнительные сведения об использовании Tidyverse см. в статье Использование Tidyverse.
Визуализация R
Экосистема R предлагает несколько библиотек графирования, которые поставляются с множеством различных функций. По умолчанию каждый экземпляр Spark в Microsoft Fabric содержит набор проверенных и популярных библиотек с открытым кодом. Вы также можете добавлять дополнительные библиотеки или версии или управлять ими с помощью возможностей управления библиотеками Microsoft Fabric.
Дополнительные сведения о создании визуализаций R см. в статье Визуализация R.