Общие сведения об Apache Spark

Apache Spark — это технология обработки вычислительных кластеров и хранилищ SQL в Azure Databricks.

На этой странице представлен обзор документации в этом разделе.

Начало работы

Начало работы с Apache Spark в Databricks.

Тема	Description
Apache Spark в Azure Databricks	Получите ответы на часто задаваемые вопросы об Apache Spark в Azure Databricks.
Учебное пособие: Загрузка и преобразование данных с помощью DataFrame Apache Spark	Следуйте пошаговому руководству по работе с DataFrame Spark в Python, R или Scala для загрузки и преобразования данных.
Основы PySpark	Ознакомьтесь с основами использования PySpark, пройдя простые примеры.

Дополнительные ресурсы

Ознакомьтесь с другими возможностями и документацией Spark.

Тема	Description
Сравнение Spark Connect с классической версией Spark	Узнайте о ключевых различиях между Spark Connect и Spark Classic в выполнении и поведении анализа, чтобы избежать непредвиденных проблем с поведением и производительностью при переносе кода.
Настройка свойств конфигурации Spark в Azure Databricks	Задайте свойства конфигурации Spark, чтобы настроить параметры в вычислительной среде и оптимизировать производительность.
Структурированная потоковая передача	Ознакомьтесь с обзором Структурированного стриминга, движка для обработки данных в почти режиме реального времени.
Диагностика проблем с затратами и производительностью с помощью пользовательского интерфейса Spark	Узнайте, как использовать пользовательский интерфейс Spark для настройки производительности, отладки и оптимизации затрат заданий Spark.
Использование Apache Spark MLlib в Azure Databricks	Распределенное машинное обучение с помощью Spark MLlib и интеграции с популярными платформами машинного обучения.

API Spark

Работа с Spark с помощью предпочитаемого языка программирования.

Тема	Description
Справочник по API Apache Spark	Обзор справочника по API для Apache Spark, включая ссылки на операции Spark SQL, DataFrames и RDD на поддерживаемых языках.
PySpark	Используйте Python с Spark, включая основы PySpark, пользовательские источники данных и оптимизацию для Python.
API Pandas в Spark	Используйте знакомый синтаксис pandas с масштабируемостью Spark для распределенной обработки данных.
R для Spark	Работа с R и Spark с помощью SparkR и sparklyr для статистических вычислений и анализа данных.
Scala для Spark	Создавайте высокопроизводительные приложения Spark с помощью Scala с собственными API-интерфейсами Spark и безопасностью типов.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-16

Поделиться через

Общие сведения об Apache Spark

Начало работы

Дополнительные ресурсы

API Spark

Обратная связь

Дополнительные ресурсы