Использование R для Apache Spark

Microsoft Fabric обеспечивает встроенную поддержку R для Apache Spark. Это включает поддержку SparkR и sparklyr, которая позволяет пользователям взаимодействовать с Spark с помощью знакомых интерфейсов Spark или R. Вы можете анализировать данные с помощью R с помощью определений пакетного задания Spark или интерактивных записных книжек Microsoft Fabric.

В этом документе представлен обзор разработки приложений Spark в Synapse с помощью языка R.

Необходимые компоненты

  • Получение подписки Microsoft Fabric. Или зарегистрируйте бесплатную пробную версию Microsoft Fabric.

  • Войдите в Microsoft Fabric.

  • Используйте переключатель интерфейса в левой части домашней страницы, чтобы перейти на интерфейс Synapse Обработка и анализ данных.

    Screenshot of the experience switcher menu, showing where to select Data Science.

Создание и запуск сеансов записной книжки

Записная книжка Microsoft Fabric — это веб-интерфейс для создания файлов, содержащих динамический код, визуализации и текст повествования. Записные книжки отлично подходят для проверки идей и использования быстрых экспериментов, чтобы получить аналитические сведения по данным. Записные книжки также широко используются при подготовке и визуализации данных, машинном обучении и в других сценариях с большими данными.

Чтобы приступить к работе с R в записных книжках Microsoft Fabric, измените основной язык в верхней части записной книжки, задав параметр языка SparkR (R).

Кроме того, можно использовать несколько языков в одной записной книжке, указав волшебную команду языка в начале ячейки.

%%sparkr
# Enter your R code here

Дополнительные сведения о записных книжках в Microsoft Fabric Analytics см. в статье "Использование записных книжек".

Установка пакетов

Библиотеки предоставляют многократно используемый код, который вы можете включать в программы или проекты. Чтобы сделать сторонний или локальный код доступным для приложений, можно установить библиотеку в одну из рабочих областей или сеанса записной книжки.

Дополнительные сведения об управлении библиотеками R см. в статье "Управление библиотеками R".

Служебные программы записных книжек

Служебные программы Microsoft Spark (MSSparkUtils) — это встроенный пакет, помогающий легко выполнять распространенные задачи. С помощью MSSparkUtils можно работать с файловыми системами и секретами, получать переменные среды и связывать записные книжки. MSSparkUtils поддерживается для записных книжек R.

Чтобы приступить к работе, можно выполнить следующие команды:

library(notebookutils)
mssparkutils.fs.help()

Дополнительные сведения о поддерживаемых командах MSSparkUtils см. в этой теме: использование служебных программ Microsoft Spark.

Использование SparkR

SparkR — это пакет R, который предоставляет интерфейс с легким весом для использования Apache Spark из R. SparkR предоставляет реализацию распределенного кадра данных, которая поддерживает такие операции, как выбор, фильтрация, агрегирование и т. д. SparkR также поддерживает распределенное машинное обучение с помощью MLlib.

Дополнительные сведения об использовании SparkR см. в статье "Как использовать SparkR".

Использование sparklyr

sparklyr — это интерфейс R для Apache Spark. Он предоставляет механизм взаимодействия с Spark с помощью знакомых интерфейсов R. С помощью sparklyr можно использовать определения пакетного задания Spark или интерактивные записные книжки Microsoft Fabric.

Дополнительные сведения об использовании sparklyr см. в статье "Как использовать sparklyr".

Использование Tidyverse

Tidyverse — это коллекция пакетов R, которые специалисты по обработке и анализу данных обычно используют в повседневном анализе данных. Он включает пакеты для импорта данных (), визуализации данных (readr), обработки данных (ggplot2dplyr, tidyrфункционального программированияpurrr) и сборки моделей (tidymodels) и т. д. tidyverse Пакеты предназначены для эффективной работы и выполнения согласованного набора принципов проектирования. Microsoft Fabric распространяет последнюю стабильную версию tidyverse каждого выпуска среды выполнения.

Дополнительные сведения об использовании Tidyverse см. в статье "Как использовать Tidyverse".

Визуализация R

Экосистема R предлагает несколько библиотек графирования, которые упакованы с множеством различных функций. По умолчанию каждый экземпляр Spark в Microsoft Fabric содержит набор курируемых и популярных библиотек с открытым кодом. Вы также можете добавлять или управлять дополнительными библиотеками или версиями с помощью возможностей управления библиотеками Microsoft Fabric.

Узнайте больше о том, как создавать визуализации R, посещая визуализацию R.