Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
На этой странице представлен обзор справки, доступной для PySpark, API Python для Spark. Дополнительные сведения о PySpark см. в статье PySpark в Azure Databricks.
| Reference | Description |
|---|---|
| Основные классы | Основные классы для работы с PySpark SQL, включая основы SparkSession и DataFrame. |
| Сеанс Spark | Точка входа для чтения данных и выполнения запросов SQL в приложениях PySpark. |
| Configuration | Параметры конфигурации среды выполнения для Spark SQL, включая параметры выполнения и оптимизатора. Сведения о конфигурации, доступной только в Databricks, см. в разделе Настройка свойств конфигурации Spark в Azure Databricks. |
| DataFrame | Распределенная коллекция данных, упорядоченная по именованным столбцам, аналогично таблице в реляционной базе данных. |
| Ввод-вывод | Методы чтения данных из и записи данных в различные форматы файлов и источники данных. |
| Столбец | Операции для работы со столбцами DataFrame, включая преобразования и выражения. |
| Типы данных | Доступные типы данных в PySpark SQL, включая примитивные типы, сложные типы и определяемые пользователем типы. |
| Row | Представляет строку в DataFrame, предоставляя доступ к значениям отдельных полей. |
| Функции | Встроенные функции для операций обработки данных, преобразования и агрегирования. |
| Окно | Функции окна для выполнения вычислений в наборе строк таблицы, связанных с текущей строкой. |
| Группировка | Методы группировки данных и выполнения операций агрегации с группированными кадрами данных. |
| Каталог | Интерфейс для управления базами данных, таблицами, функциями и другими метаданными каталога. |
| Avro | Поддержка чтения и записи данных в формате Apache Avro. |
| Наблюдение | Собирает метрики и отслеживает DataFrames в процессе выполнения запроса для целей мониторинга и отладки. |
| Определяемая пользователем функция | Определяемые пользователем функции для применения пользовательской логики Python к столбцам DataFrame. |
| UDTF | Определяемые пользователем функции таблицы, возвращающие несколько строк для каждой входной строки. |
| VariantVal | Обрабатывает полуструктурированные данные с гибкой схемой, поддерживая динамические типы и вложенные структуры. |
| ProtoBuf | Поддержка сериализации и десериализации данных с помощью формата буферов протокола. |
| Python DataSource | API для реализации пользовательских источников данных для чтения из внешних систем. Сведения о пользовательских источниках данных см. в разделе "Пользовательские источники данных PySpark". |
| Обработчик с сохранением состояния | Управляет состоянием между пакетами потоковой передачи для сложных операций с отслеживанием состояния в структурированной потоковой передаче. |