Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Esta página fornece uma visão geral da referência disponível para o PySpark, uma API de Python para Spark. Para obter mais informações sobre o PySpark, consulte PySpark no Azure Databricks.
Tipos de dados
Para obter uma lista completa dos tipos de dados do PySpark, consulte os tipos de dados do PySpark.
Aulas
| Referência | Description |
|---|---|
| Catálogo | Interface para gerenciar bancos de dados, tabelas, funções e outros metadados de catálogo. |
| Coluna | Operações para trabalhar com colunas DataFrame, incluindo transformações e expressões. |
| Tipos de dados | Tipos de dados disponíveis no PySpark SQL, incluindo tipos primitivos, tipos complexos e tipos definidos pelo usuário. |
| DataFrame | Coleção distribuída de dados organizados em colunas nomeadas, semelhante a uma tabela em um banco de dados relacional. |
| DataFrameNaFunctions | Funcionalidade para trabalhar com dados ausentes em um DataFrame. |
| DataFrameReader | Interface usada para carregar um DataFrame de sistemas de armazenamento externos. |
| DataFrameStatFunctions | Funcionalidade para funções estatísticas com um DataFrame. |
| DataFrameWriter | Interface usada para gravar um DataFrame em sistemas de armazenamento externos. |
| DataFrameWriterV2 | Interface usada para gravar um DataFrame no armazenamento externo (versão 2). |
| DataSource | APIs para implementar fontes de dados personalizadas a serem lidas de sistemas externos. Para obter informações sobre fontes de dados personalizadas, consulte fontes de dados personalizadas do PySpark. |
| DataSourceArrowWriter | Uma classe base para gravadores de fonte de dados que processam dados usando pyArrow's RecordBatch. |
| DataSourceRegistration | Um wrapper para registro de fonte de dados. |
| DataSourceReader | Uma classe base para leitores de fonte de dados. |
| DataSourceStreamArrowWriter | Uma classe base para gravadores de fluxo de dados que processam dados usando pyArrow's RecordBatch. |
| DataSourceStreamReader | Uma classe base para leitores de fonte de dados de streaming. |
| DataSourceStreamWriter | Uma classe base para gravadores de fluxo de dados. |
| DataSourceWriter | Uma classe base para gravadores de fonte de dados responsáveis por salvar dados em uma fonte de dados personalizada no modo de lote. |
| DataStreamReader | Interface usada para carregar um DataFrame de streaming de sistemas de armazenamento externos. |
| DataStreamWriter | Interface usada para gravar um DataFrame de streaming em sistemas de armazenamento externos. |
| Geografia | Uma classe para representar um valor geography em Python. |
| Geometria | Uma classe para representar um valor geometry em Python. |
| GroupedData | Métodos para agrupar dados e executar operações de agregação em DataFrames agrupados. |
| InputPartition | Uma classe base que representa uma partição de entrada retornada pelo partitions() método de DataSourceReader. |
| Observação | Coleta métricas e observa DataFrames durante a execução da consulta para monitoramento e depuração. |
| PlotAccessor | Acessador para funcionalidade de plotagem de DataFrame no PySpark. |
| ProtoBuf | Suporte para serialização e desserialização de dados usando o formato Protocol Buffers. |
| Linha | Representa uma linha de dados em um DataFrame, fornecendo acesso a valores de campo individuais. |
| RuntimeConfig | Opções de configuração de runtime para o Spark SQL, incluindo configurações de execução e otimizador. Para obter informações sobre a configuração disponível apenas no Databricks, consulte Conjunto propriedades de configuração do Spark em Azure Databricks. |
| SimpleDataSourceStreamReader | Uma classe base para leitores simplificados da fonte de dados de streaming que lê dados e planeja o deslocamento mais recente simultaneamente. |
| sparkSession | O ponto de entrada para ler dados e executar consultas SQL em aplicativos PySpark. |
| Processador com estado | Gerencia estados em lotes de streaming para operações com estado complexas no streaming estruturado. |
| StreamingQuery | Um identificador para uma consulta que está sendo executada continuamente em segundo plano à medida que novos dados chegam. |
| StreamingQueryListener | Classe abstrata para ouvir eventos de ciclo de vida de consulta de streaming. |
| StreamingQueryManager | Gerencia todas as instâncias ativas StreamingQuery associadas a um SparkSession. |
| UserDefinedFunction (UDF) | Funções definidas pelo usuário para aplicar lógica de Python personalizada às colunas DataFrame. |
| UDFRegistration | Wrapper para registro de função definido pelo usuário. Essa instância pode ser acessada por spark.udf. |
| UserDefinedTableFunction (UDTF) | Funções de tabela definidas pelo usuário que retornam várias linhas para cada linha de entrada. |
| UDTFRegistration | Wrapper para registro de função de tabela definido pelo usuário. Essa instância pode ser acessada por spark.udtf. |
| VariantVal | Representa dados semiestruturados com esquema flexível, que dá suporte a tipos dinâmicos e estruturas aninhadas. |
| Janela | Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. |
| WindowSpec | Funções de janela para executar cálculos em um conjunto de linhas de tabela relacionadas à linha atual. |
| WriterCommitMessage | Uma mensagem de confirmação retornada e DataSourceWriter.write enviada de volta ao driver como um parâmetro de entrada ou DataSourceWriter.commitDataSourceWriter.abort. |
Functions
Para obter uma lista completa das funções internas disponíveis, consulte as funções do PySpark.