Поделиться через


Общие сведения об Apache Spark

Apache Spark — это технология обработки вычислительных кластеров и хранилищ SQL в Azure Databricks.

На этой странице представлен обзор документации в этом разделе.

Начало работы

Начало работы с Apache Spark в Databricks.

Тема Description
Apache Spark в Azure Databricks Получите ответы на часто задаваемые вопросы об Apache Spark в Azure Databricks.
Учебное пособие: Загрузка и преобразование данных с помощью DataFrame Apache Spark Следуйте пошаговому руководству по работе с DataFrame Spark в Python, R или Scala для загрузки и преобразования данных.
Основы PySpark Ознакомьтесь с основами использования PySpark, пройдя простые примеры.

Дополнительные ресурсы

Ознакомьтесь с другими возможностями и документацией Spark.

Тема Description
Сравнение Spark Connect с классической версией Spark Узнайте о ключевых различиях между Spark Connect и Spark Classic в выполнении и поведении анализа, чтобы избежать непредвиденных проблем с поведением и производительностью при переносе кода.
Настройка свойств конфигурации Spark в Azure Databricks Задайте свойства конфигурации Spark, чтобы настроить параметры в вычислительной среде и оптимизировать производительность.
Структурированная потоковая передача Ознакомьтесь с обзором Структурированного стриминга, движка для обработки данных в почти режиме реального времени.
Диагностика проблем с затратами и производительностью с помощью пользовательского интерфейса Spark Узнайте, как использовать пользовательский интерфейс Spark для настройки производительности, отладки и оптимизации затрат заданий Spark.
Использование Apache Spark MLlib в Azure Databricks Распределенное машинное обучение с помощью Spark MLlib и интеграции с популярными платформами машинного обучения.

API Spark

Работа с Spark с помощью предпочитаемого языка программирования.

Тема Description
Справочник по API Apache Spark Обзор справочника по API для Apache Spark, включая ссылки на операции Spark SQL, DataFrames и RDD на поддерживаемых языках.
PySpark Используйте Python с Spark, включая основы PySpark, пользовательские источники данных и оптимизацию для Python.
API Pandas в Spark Используйте знакомый синтаксис pandas с масштабируемостью Spark для распределенной обработки данных.
R для Spark Работа с R и Spark с помощью SparkR и sparklyr для статистических вычислений и анализа данных.
Scala для Spark Создавайте высокопроизводительные приложения Spark с помощью Scala с собственными API-интерфейсами Spark и безопасностью типов.