Справочник по PySpark

На этой странице представлен обзор справки, доступной для PySpark, API Python для Spark. Дополнительные сведения о PySpark см. в статье PySpark в Azure Databricks.

Reference	Description
Основные классы	Основные классы для работы с PySpark SQL, включая основы SparkSession и DataFrame.
Сеанс Spark	Точка входа для чтения данных и выполнения запросов SQL в приложениях PySpark.
Configuration	Параметры конфигурации среды выполнения для Spark SQL, включая параметры выполнения и оптимизатора. Сведения о конфигурации, доступной только в Databricks, см. в разделе Настройка свойств конфигурации Spark в Azure Databricks.
DataFrame	Распределенная коллекция данных, упорядоченная по именованным столбцам, аналогично таблице в реляционной базе данных.
Ввод-вывод	Методы чтения данных из и записи данных в различные форматы файлов и источники данных.
Столбец	Операции для работы со столбцами DataFrame, включая преобразования и выражения.
Типы данных	Доступные типы данных в PySpark SQL, включая примитивные типы, сложные типы и определяемые пользователем типы.
Row	Представляет строку в DataFrame, предоставляя доступ к значениям отдельных полей.
Функции	Встроенные функции для операций обработки данных, преобразования и агрегирования.
Окно	Функции окна для выполнения вычислений в наборе строк таблицы, связанных с текущей строкой.
Группировка	Методы группировки данных и выполнения операций агрегации с группированными кадрами данных.
Каталог	Интерфейс для управления базами данных, таблицами, функциями и другими метаданными каталога.
Avro	Поддержка чтения и записи данных в формате Apache Avro.
Наблюдение	Собирает метрики и отслеживает DataFrames в процессе выполнения запроса для целей мониторинга и отладки.
Определяемая пользователем функция	Определяемые пользователем функции для применения пользовательской логики Python к столбцам DataFrame.
UDTF	Определяемые пользователем функции таблицы, возвращающие несколько строк для каждой входной строки.
VariantVal	Обрабатывает полуструктурированные данные с гибкой схемой, поддерживая динамические типы и вложенные структуры.
ProtoBuf	Поддержка сериализации и десериализации данных с помощью формата буферов протокола.
Python DataSource	API для реализации пользовательских источников данных для чтения из внешних систем. Сведения о пользовательских источниках данных см. в разделе "Пользовательские источники данных PySpark".
Обработчик с сохранением состояния	Управляет состоянием между пакетами потоковой передачи для сложных операций с отслеживанием состояния в структурированной потоковой передаче.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-16

Поделиться через

Справочник по PySpark

Обратная связь

Дополнительные ресурсы