Referência do PySpark

Esta página fornece uma visão geral da referência disponível para o PySpark, uma API de Python para Spark. Para obter mais informações sobre o PySpark, consulte PySpark no Azure Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte os tipos de dados do PySpark.

Aulas

Referência	Description
Catálogo	Interface para gerenciar bancos de dados, tabelas, funções e outros metadados de catálogo.
Coluna	Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
Tipos de dados	Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.
DataFrame	Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.
DataFrameNaFunctions	Funcionalidade para trabalhar com dados ausentes em um DataFrame.
DataFrameReader	Interface usada para carregar um DataFrame de sistemas de armazenamento externos.
DataFrameStatFunctions	Funcionalidade para funções estatísticas com um DataFrame.
DataFrameWriter	Interface usada para gravar um DataFrame em sistemas de armazenamento externos.
DataFrameWriterV2	Interface usada para gravar um DataFrame no armazenamento externo (versão 2).
DataSource	APIs para implementar fontes de dados personalizadas a serem lidas de sistemas externos. Para obter informações sobre fontes de dados personalizadas, consulte fontes de dados personalizadas do PySpark.
DataSourceArrowWriter	Uma classe base para gravadores de fonte de dados que processam dados usando pyArrow's `RecordBatch`.
DataSourceRegistration	Um wrapper para registro de fonte de dados.
DataSourceReader	Uma classe base para leitores de fonte de dados.
DataSourceStreamArrowWriter	Uma classe base para gravadores de fluxo de dados que processam dados usando pyArrow's `RecordBatch`.
DataSourceStreamReader	Uma classe base para leitores de fonte de dados de streaming.
DataSourceStreamWriter	Uma classe base para gravadores de fluxo de dados.
DataSourceWriter	Uma classe base para gravadores de fonte de dados responsáveis por salvar dados em uma fonte de dados personalizada no modo de lote.
DataStreamReader	Interface usada para carregar um DataFrame de streaming de sistemas de armazenamento externos.
DataStreamWriter	Interface usada para gravar um DataFrame de streaming em sistemas de armazenamento externos.
Geografia	Uma classe para representar um valor geography em Python.
Geometria	Uma classe para representar um valor geometry em Python.
GroupedData	Métodos para agrupar dados e executar operações de agregação em DataFrames agrupados.
InputPartition	Uma classe base que representa uma partição de entrada retornada pelo `partitions()` método de `DataSourceReader`.
Observação	Coleta métricas e observa DataFrames durante a execução da consulta para monitoramento e depuração.
PlotAccessor	Acessador para funcionalidade de plotagem de DataFrame no PySpark.
ProtoBuf	Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Linha	Representa uma linha de dados em um DataFrame, fornecendo acesso a valores de campo individuais.
RuntimeConfig	Opções de configuração de runtime para o Spark SQL, incluindo configurações de execução e otimizador. Para obter informações sobre a configuração disponível apenas no Databricks, consulte Conjunto propriedades de configuração do Spark em Azure Databricks.
SimpleDataSourceStreamReader	Uma classe base para leitores simplificados da fonte de dados de streaming que lê dados e planeja o deslocamento mais recente simultaneamente.
sparkSession	O ponto de entrada para ler dados e executar consultas SQL em aplicativos PySpark.
Processador com estado	Gerencia estados em lotes de streaming para operações com estado complexas no streaming estruturado.
StreamingQuery	Um identificador para uma consulta que está sendo executada continuamente em segundo plano à medida que novos dados chegam.
StreamingQueryListener	Classe abstrata para ouvir eventos de ciclo de vida de consulta de streaming.
StreamingQueryManager	Gerencia todas as instâncias ativas `StreamingQuery` associadas a um `SparkSession`.
UserDefinedFunction (UDF)	Funções definidas pelo usuário para aplicar lógica de Python personalizada às colunas DataFrame.
UDFRegistration	Wrapper para registro de função definido pelo usuário. Essa instância pode ser acessada por `spark.udf`.
UserDefinedTableFunction (UDTF)	Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.
UDTFRegistration	Wrapper para registro de função de tabela definido pelo usuário. Essa instância pode ser acessada por `spark.udtf`.
VariantVal	Representa dados semiestruturados com esquema flexível, que dá suporte a tipos dinâmicos e estruturas aninhadas.
Janela	Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
WindowSpec	Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
WriterCommitMessage	Uma mensagem de confirmação retornada e `DataSourceWriter.write` enviada de volta ao driver como um parâmetro de entrada ou `DataSourceWriter.commitDataSourceWriter.abort`.

Functions

Para obter uma lista completa das funções internas disponíveis, consulte as funções do PySpark.

Comentários

Esta página foi útil?

Last updated on 2026-04-19