Поделиться через


Справочник по PySpark

На этой странице представлен обзор справки, доступной для PySpark, API Python для Spark. Дополнительные сведения о PySpark см. в статье PySpark в Azure Databricks.

Reference Description
Основные классы Основные классы для работы с PySpark SQL, включая основы SparkSession и DataFrame.
Сеанс Spark Точка входа для чтения данных и выполнения запросов SQL в приложениях PySpark.
Configuration Параметры конфигурации среды выполнения для Spark SQL, включая параметры выполнения и оптимизатора.
Сведения о конфигурации, доступной только в Databricks, см. в разделе Настройка свойств конфигурации Spark в Azure Databricks.
DataFrame Распределенная коллекция данных, упорядоченная по именованным столбцам, аналогично таблице в реляционной базе данных.
Ввод-вывод Методы чтения данных из и записи данных в различные форматы файлов и источники данных.
Столбец Операции для работы со столбцами DataFrame, включая преобразования и выражения.
Типы данных Доступные типы данных в PySpark SQL, включая примитивные типы, сложные типы и определяемые пользователем типы.
Row Представляет строку в DataFrame, предоставляя доступ к значениям отдельных полей.
Функции Встроенные функции для операций обработки данных, преобразования и агрегирования.
Окно Функции окна для выполнения вычислений в наборе строк таблицы, связанных с текущей строкой.
Группировка Методы группировки данных и выполнения операций агрегации с группированными кадрами данных.
Каталог Интерфейс для управления базами данных, таблицами, функциями и другими метаданными каталога.
Avro Поддержка чтения и записи данных в формате Apache Avro.
Наблюдение Собирает метрики и отслеживает DataFrames в процессе выполнения запроса для целей мониторинга и отладки.
Определяемая пользователем функция Определяемые пользователем функции для применения пользовательской логики Python к столбцам DataFrame.
UDTF Определяемые пользователем функции таблицы, возвращающие несколько строк для каждой входной строки.
VariantVal Обрабатывает полуструктурированные данные с гибкой схемой, поддерживая динамические типы и вложенные структуры.
ProtoBuf Поддержка сериализации и десериализации данных с помощью формата буферов протокола.
Python DataSource API для реализации пользовательских источников данных для чтения из внешних систем. Сведения о пользовательских источниках данных см. в разделе "Пользовательские источники данных PySpark".
Обработчик с сохранением состояния Управляет состоянием между пакетами потоковой передачи для сложных операций с отслеживанием состояния в структурированной потоковой передаче.