Referência do PySpark

Esta página fornece uma visão geral das referências disponíveis para o PySpark, uma API em Python para o Spark. Para mais informações sobre o PySpark, veja PySpark no Azure Databricks.

Reference	Description
Disciplinas Básicas	Principais aulas para trabalhar com PySpark SQL, incluindo fundamentos de SparkSession e DataFrame.
Sessão Spark	O ponto de entrada para ler dados e executar consultas SQL em aplicações PySpark.
Configuration	Configurações em tempo de execução para Spark SQL, incluindo definições de execução e de otimização. Para informações sobre configurações que só estão disponíveis no Databricks, veja Definir propriedades de configuração do Spark no Azure Databricks.
DataFrame	Coleção distribuída de dados organizada em colunas nomeadas, semelhante a uma tabela numa base de dados relacional.
de entrada/saída	Métodos para ler dados e escrever dados em vários formatos de ficheiro e fontes de dados.
Coluna	Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões.
tipos de dados	Tipos de dados disponíveis em PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo utilizador.
Linha	Representa uma linha de dados num DataFrame, fornecendo acesso a valores individuais de campo.
Funções	Funções integradas para manipulação, transformação e operações de agregação de dados.
Janela	Funções janela para realizar cálculos ao longo de um conjunto de linhas de tabela relacionadas com a linha atual.
Agrupamento	Métodos para agrupar dados e realizar operações de agregação em DataFrames agrupados.
Catálogo	Interface para gerir bases de dados, tabelas, funções e outros metadados de catálogo.
Avro	Suporte para leitura e escrita de dados em formato Apache Avro.
Observação	Recolhe métricas e observa DataFrames durante a execução da consulta para monitorização e depuração.
UDF	Funções definidas pelo utilizador para aplicar lógica Python personalizada a colunas DataFrame.
UDTF	Funções de tabela definidas pelo utilizador que retornam várias linhas para cada linha de entrada.
VariantVal	Lida com dados semi-estruturados com esquemas flexíveis, suportando tipos dinâmicos e estruturas aninhadas.
ProtoBuf	Suporte para serialização e desserialização de dados usando o formato Protocol Buffers.
Python DataSource	APIs para implementar fontes de dados personalizadas para leitura de sistemas externos. Para informações sobre fontes de dados personalizadas, consulte PySpark fontes de dados personalizadas.
Processador com estado	Gere o estado entre lotes de streaming para operações complexas dentro de streaming estruturado.

Feedback

Esta página foi útil?

Last updated on 2026-01-16

Partilhar via

Referência do PySpark

Feedback

Recursos adicionais