Leitura de arquivos Parquet usando o Azure Databricks

Este artigo mostra como ler dados de arquivos do Apache Parquet usando o Azure Databricks.

O que é o Parquet?

O Apache Parquet é um formato de arquivo em coluna com otimizações para acelerar as consultas. É um formato de arquivo mais eficiente do que CSV ou JSON.

Para obter mais informações, confira Arquivos Parquet.

Opções

Use os métodos .option() e .options() de DataFrameReader e DataFrameWriter para configurar fontes de dados Parquet. Para obter uma lista completa das opções com suporte, consulte DataFrameReader opções do Parquet e DataFrameWriter opções do Parquet.

Exemplo de notebook: ler e gravar em arquivos Parquet

O notebook a seguir demonstra como ler e gravar dados em arquivos Parquet.

Leitura de arquivos Parquet no notebook

Obter notebook