Поделиться через


Использование R для Apache Spark

Microsoft Fabric обеспечивает встроенную поддержку R для Apache Spark. Это включает поддержку SparkR и sparklyr, что позволяет пользователям взаимодействовать с Spark с помощью знакомых интерфейсов Spark или R. Вы можете анализировать данные с помощью R с помощью определений пакетного задания Spark или интерактивных записных книжек Microsoft Fabric.

В этом документе представлен обзор разработки приложений Spark в Synapse с помощью языка R.

Необходимые условия

  • Получите подписку Microsoft Fabric. Или зарегистрируйтесь для бесплатной пробной версии Microsoft Fabric.

  • Войдите в Microsoft Fabric.

  • Используйте переключатель интерфейса в левой нижней части домашней страницы, чтобы перейти на Fabric.

    снимок экрана меню переключателя интерфейса, в котором показано, где выбрать обработку и анализ данных.

Создание и запуск сеансов записной книжки

Записная книжка Microsoft Fabric — это веб-интерфейс для создания файлов, содержащих динамический код, визуализации и текст повествования. Записные книжки являются хорошим местом для проверки идей и использования быстрых экспериментов для получения аналитических сведений от данных. Записные книжки также широко используются в подготовке данных, визуализации данных, машинном обучении и других сценариях больших данных.

Чтобы приступить к работе с R в записных книжках Microsoft Fabric, измените основной язык в верхней части записной книжки, задав параметр языка SparkR (R).

Кроме того, можно использовать несколько языков в одной записной книжке, указав волшебную команду языка в начале ячейки.

%%sparkr
# Enter your R code here

Дополнительные сведения о записных книжках в Microsoft Fabric Analytics см. в статье Использование записных книжек.

Установка пакетов

Библиотеки предоставляют повторно используемый код, который может потребоваться включить в программы или проекты. Чтобы сделать сторонний или локальный код доступным для приложений, можно установить библиотеку в одну из рабочих областей или сеанса записной книжки.

Чтобы узнать больше об управлении библиотеками R, см. управление библиотеками R.

Утилиты ноутбука

Служебные программы Microsoft Spark (MSSparkUtils) — это встроенный пакет, помогающий легко выполнять распространенные задачи. С помощью MSSparkUtils можно работать с файловыми системами, получать переменные среды, объединять записные книжки и работать с секретами. MSSparkUtils поддерживается для записных книжек R.

Чтобы приступить к работе, можно выполнить следующие команды:

library(notebookutils)
mssparkutils.fs.help()

Узнайте больше о поддерживаемых командах MSSparkUtils в разделе использование служебных программ Microsoft Spark.

Использование SparkR

SparkR — это пакет R, предоставляющий легковесный интерфейс для использования Apache Spark из R. SparkR предоставляет реализацию распределенного фрейма данных, которая поддерживает такие операции, как выбор, фильтрация, агрегирование и т. д. SparkR также поддерживает распределенное машинное обучение с помощью MLlib.

Дополнительные сведения о том, как использовать SparkR, можно найти в .

Используйте sparklyr

sparklyr — это интерфейс R для Apache Spark. Он предоставляет механизм взаимодействия с Spark с помощью знакомых интерфейсов R. Вы можете использовать sparklyr в контексте определений пакетных заданий Spark или с интерактивными записными книжками Microsoft Fabric.

Чтобы узнать больше об использовании sparklyr, посетите Как использовать sparklyr.

Использование Tidyverse

Tidyverse — это коллекция пакетов R, которые специалисты по обработке и анализу данных обычно используют в повседневных анализах данных. Он включает пакеты для импорта данных (readr), визуализации данных (ggplot2), обработки данных (dplyr, tidyr), функционального программирования (purrr), а также построения моделей (tidymodels) и т. д. Пакеты в tidyverse предназначены для эффективной работы и выполнения согласованного набора принципов проектирования. Microsoft Fabric распространяет последнюю стабильную версию tidyverse с каждым выпуском среды выполнения.

Чтобы узнать больше о том, как использовать Tidyverse, посетите Как использовать Tidyverse.

Визуализация R

Экосистема R предлагает несколько библиотек графирования, которые упакованы с множеством различных функций. По умолчанию каждый экземпляр Spark в Microsoft Fabric содержит набор курируемых и популярных библиотек с открытым кодом. Вы также можете добавлять или управлять дополнительными библиотеками или версиями с помощью возможностей управления библиотеками Microsoft Fabric .

Узнать больше о создании визуализаций R можно, посетив визуализации R.