Partilhar via


Koalas

Importante

Esta documentação foi desativada e pode não ser atualizada. Os produtos, serviços ou tecnologias mencionados neste conteúdo não são mais suportados. Consulte a API do Pandas no Spark.

Nota

Koalas é preterido. Se você tentar usar o Koalas em clusters que executam o Databricks Runtime 10.0 (sem suporte) e superior, uma mensagem informativa será exibida, recomendando que você use a API Pandas no Spark .

Koalas fornece um substituto drop-in para pandas. Comumente usado por cientistas de dados, o pandas é um pacote Python que fornece estruturas de dados fáceis de usar e ferramentas de análise de dados para a linguagem de programação Python. No entanto, os pandas não se expandem para big data. O Koalas preenche essa lacuna fornecendo APIs equivalentes a pandas que funcionam no Apache Spark. Koalas é útil não só para usuários de pandas, mas também usuários do PySpark, porque o Koalas suporta muitas tarefas que são difíceis de fazer com o PySpark, por exemplo, plotar dados diretamente de um DataFrame PySpark.

Requisitos

  • O Koalas está incluído em clusters que executam o Databricks Runtime 7.3 a 9.1. Para clusters que executam o Databricks Runtime 10.0 e superior, use a API Pandas no Spark .
  • Para usar o Koalas em um cluster que executa o Databricks Runtime 7.0 ou inferior, instale o Koalas como uma biblioteca do Azure Databricks PyPI.
  • Para usar o Koalas em um IDE, servidor de notebook ou outros aplicativos personalizados que se conectam a um cluster do Azure Databricks, instale o Databricks Connect e siga as instruções de instalação do Koalas.

Bloco de Notas

O caderno a seguir mostra como migrar de pandas para coalas.

pandas para Koalas notebook

Obter o bloco de notas

Recursos