Compartilhar via


Referência do PySpark

Esta página fornece uma visão geral da referência disponível para o PySpark, uma API de Python para Spark. Para obter mais informações sobre o PySpark, consulte PySpark no Azure Databricks.

Tipos de dados

Para obter uma lista completa dos tipos de dados do PySpark, consulte os tipos de dados do PySpark.

Aulas

Referência Description
Catálogo Interface para gerenciar bancos de dados, tabelas, funções e outros metadados de catálogo.
Coluna Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
Tipos de dados Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário.
DataFrame Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional.
DataFrameNaFunctions Funcionalidade para trabalhar com dados ausentes em um DataFrame.
DataFrameReader Interface usada para carregar um DataFrame de sistemas de armazenamento externos.
DataFrameStatFunctions Funcionalidade para funções estatísticas com um DataFrame.
DataFrameWriter Interface usada para gravar um DataFrame em sistemas de armazenamento externos.
DataFrameWriterV2 Interface usada para gravar um DataFrame no armazenamento externo (versão 2).
DataSource APIs para implementar fontes de dados personalizadas a serem lidas de sistemas externos. Para obter informações sobre fontes de dados personalizadas, consulte fontes de dados personalizadas do PySpark.
DataSourceArrowWriter Uma classe base para gravadores de fonte de dados que processam dados usando pyArrow's RecordBatch.
DataSourceRegistration Um wrapper para registro de fonte de dados.
DataSourceReader Uma classe base para leitores de fonte de dados.
DataSourceStreamArrowWriter Uma classe base para gravadores de fluxo de dados que processam dados usando pyArrow's RecordBatch.
DataSourceStreamReader Uma classe base para leitores de fonte de dados de streaming.
DataSourceStreamWriter Uma classe base para gravadores de fluxo de dados.
DataSourceWriter Uma classe base para gravadores de fonte de dados responsáveis por salvar dados em uma fonte de dados personalizada no modo de lote.
DataStreamReader Interface usada para carregar um DataFrame de streaming de sistemas de armazenamento externos.
DataStreamWriter Interface usada para gravar um DataFrame de streaming em sistemas de armazenamento externos.
Geografia Uma classe para representar um valor geography em Python.
Geometria Uma classe para representar um valor geometry em Python.
GroupedData Métodos para agrupar dados e executar operações de agregação em DataFrames agrupados.
InputPartition Uma classe base que representa uma partição de entrada retornada pelo partitions() método de DataSourceReader.
Observação Coleta métricas e observa DataFrames durante a execução da consulta para monitoramento e depuração.
PlotAccessor Acessador para funcionalidade de plotagem de DataFrame no PySpark.
ProtoBuf Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Linha Representa uma linha de dados em um DataFrame, fornecendo acesso a valores de campo individuais.
RuntimeConfig Opções de configuração de runtime para o Spark SQL, incluindo configurações de execução e otimizador.
Para obter informações sobre a configuração disponível apenas no Databricks, consulte Conjunto propriedades de configuração do Spark em Azure Databricks.
SimpleDataSourceStreamReader Uma classe base para leitores simplificados da fonte de dados de streaming que lê dados e planeja o deslocamento mais recente simultaneamente.
sparkSession O ponto de entrada para ler dados e executar consultas SQL em aplicativos PySpark.
Processador com estado Gerencia estados em lotes de streaming para operações com estado complexas no streaming estruturado.
StreamingQuery Um identificador para uma consulta que está sendo executada continuamente em segundo plano à medida que novos dados chegam.
StreamingQueryListener Classe abstrata para ouvir eventos de ciclo de vida de consulta de streaming.
StreamingQueryManager Gerencia todas as instâncias ativas StreamingQuery associadas a um SparkSession.
UserDefinedFunction (UDF) Funções definidas pelo usuário para aplicar lógica de Python personalizada às colunas DataFrame.
UDFRegistration Wrapper para registro de função definido pelo usuário. Essa instância pode ser acessada por spark.udf.
UserDefinedTableFunction (UDTF) Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada.
UDTFRegistration Wrapper para registro de função de tabela definido pelo usuário. Essa instância pode ser acessada por spark.udtf.
VariantVal Representa dados semiestruturados com esquema flexível, que dá suporte a tipos dinâmicos e estruturas aninhadas.
Janela Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
WindowSpec Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual.
WriterCommitMessage Uma mensagem de confirmação retornada e DataSourceWriter.write enviada de volta ao driver como um parâmetro de entrada ou DataSourceWriter.commitDataSourceWriter.abort.

Functions

Para obter uma lista completa das funções internas disponíveis, consulte as funções do PySpark.