Поделиться через


Использование Python для Apache Spark

Microsoft Fabric предоставляет встроенную поддержку Python для Apache Spark. Поддержка включает PySpark, которая позволяет пользователям взаимодействовать с Spark с помощью знакомых интерфейсов Spark или Python.

Вы можете анализировать данные с помощью Python с помощью определений пакетного задания Spark или с помощью интерактивных записных книжек Fabric. В этой статье представлен обзор разработки приложений Spark в Synapse с помощью языка Python.

Создание и запуск сеансов записной книжки

Записная книжка Microsoft Fabric — это веб-интерфейс для создания файлов, содержащих динамический код, визуализации и текст повествования. Записные книжки отлично подходят для проверки идей и использования быстрых экспериментов, чтобы получить аналитические сведения по данным. Записные книжки также широко используются при подготовке и визуализации данных, машинном обучении и в других сценариях с большими данными.

Чтобы приступить к работе с Python в записных книжках Microsoft Fabric, измените основной язык в верхней части записной книжки, задав параметр языка PySpark (Python).

%%pyspark
# Enter your Python code here

Вы можете использовать несколько языков в одной записной книжке, указав в начале ячейки команду магического языка.

Дополнительные сведения о записных книжках в Microsoft Fabric Analytics см. в статье "Использование записных книжек".

Установка пакетов

Библиотеки предоставляют многократно используемый код, который можно включить в программы или проекты. Чтобы сделать код партнера или локальный встроенный код доступным для приложений, установите библиотеку в сеанс записной книжки. Кроме того, администратор рабочей области может создать среду, установить в нее библиотеку и присоединить среду в качестве рабочей области по умолчанию в параметре рабочей области.

Дополнительные сведения об управлении библиотеками в Microsoft Fabric см. в статье "Управление библиотеками Apache Spark".

Служебные программы записных книжек

Служебные программы Microsoft Spark (MSSparkUtils) — это встроенный пакет, помогающий легко выполнять распространенные задачи. С помощью MSSparkUtils можно работать с файловыми системами и секретами, получать переменные среды и связывать записные книжки. MSSparkUtils поддерживается для записных книжек PySpark.

Чтобы приступить к работе, выполните следующие команды:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Дополнительные сведения о поддерживаемых командах MSSparkUtils см. в разделе "Использование служебных программ Microsoft Spark".

Использование Pandas в Spark

API Pandas в Spark позволяет масштабировать рабочую нагрузку Pandas до любого размера, выполняя ее распределенную по нескольким узлам. Если вы уже знакомы с pandas и хотите использовать Spark для больших данных, API pandas в Spark делает вас немедленно продуктивным.

Вы можете перенести приложения без изменения кода. Вы можете использовать единую базу кода, которая работает как с pandas, так и для тестов и небольших наборов данных, а также с Spark для рабочих и распределенных наборов данных. Вы можете переключаться между API pandas и API Pandas в Spark без дополнительных затрат.

Среда выполнения Python

Среда выполнения Microsoft Fabric — это курированная среда, оптимизированная для обработки и анализа данных и машинного обучения. Среда выполнения Microsoft Fabric предлагает ряд популярных библиотек с открытым исходным кодом Python, включая библиотеки, такие как Pandas, PyTorch, scikit-learn и XGBoost.

Визуализация Python

Экосистема Python предлагает несколько библиотек графирования, которые предоставляют множество различных функций. По умолчанию каждый экземпляр Spark в Microsoft Fabric содержит набор курируемых и популярных библиотек с открытым кодом. Вы также можете добавлять и управлять другими библиотеками или версиями. Дополнительные сведения об управлении библиотеками см. в сводке рекомендаций по управлению библиотеками.

Дополнительные сведения о создании визуализаций Python см. в статье "Визуализация Python".