Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Apache Spark — это технология обработки вычислительных кластеров и хранилищ SQL в Azure Databricks.
На этой странице представлен обзор документации в этом разделе.
Начало работы
Начало работы с Apache Spark в Databricks.
| Тема | Description |
|---|---|
| Apache Spark в Azure Databricks | Получите ответы на часто задаваемые вопросы об Apache Spark в Azure Databricks. |
| Учебное пособие: Загрузка и преобразование данных с помощью DataFrame Apache Spark | Следуйте пошаговому руководству по работе с DataFrame Spark в Python, R или Scala для загрузки и преобразования данных. |
| Основы PySpark | Ознакомьтесь с основами использования PySpark, пройдя простые примеры. |
Дополнительные ресурсы
Ознакомьтесь с другими возможностями и документацией Spark.
| Тема | Description |
|---|---|
| Сравнение Spark Connect с классической версией Spark | Узнайте о ключевых различиях между Spark Connect и Spark Classic в выполнении и поведении анализа, чтобы избежать непредвиденных проблем с поведением и производительностью при переносе кода. |
| Настройка свойств конфигурации Spark в Azure Databricks | Задайте свойства конфигурации Spark, чтобы настроить параметры в вычислительной среде и оптимизировать производительность. |
| Структурированная потоковая передача | Ознакомьтесь с обзором Структурированного стриминга, движка для обработки данных в почти режиме реального времени. |
| Диагностика проблем с затратами и производительностью с помощью пользовательского интерфейса Spark | Узнайте, как использовать пользовательский интерфейс Spark для настройки производительности, отладки и оптимизации затрат заданий Spark. |
| Использование Apache Spark MLlib в Azure Databricks | Распределенное машинное обучение с помощью Spark MLlib и интеграции с популярными платформами машинного обучения. |
API Spark
Работа с Spark с помощью предпочитаемого языка программирования.
| Тема | Description |
|---|---|
| Справочник по API Apache Spark | Обзор справочника по API для Apache Spark, включая ссылки на операции Spark SQL, DataFrames и RDD на поддерживаемых языках. |
| PySpark | Используйте Python с Spark, включая основы PySpark, пользовательские источники данных и оптимизацию для Python. |
| API Pandas в Spark | Используйте знакомый синтаксис pandas с масштабируемостью Spark для распределенной обработки данных. |
| R для Spark | Работа с R и Spark с помощью SparkR и sparklyr для статистических вычислений и анализа данных. |
| Scala для Spark | Создавайте высокопроизводительные приложения Spark с помощью Scala с собственными API-интерфейсами Spark и безопасностью типов. |