Condividi tramite


Koalas

Importante

Questa documentazione è stata ritirata e potrebbe non essere aggiornata. I prodotti, i servizi o le tecnologie menzionati in questo contenuto non sono più supportati. Vedere API Pandas in Spark.

Nota

Koalas è deprecato. Se si prova a usare Koalas nei cluster che eseguono Databricks Runtime 10.0 (EoS) e versioni successive, viene visualizzato un messaggio informativo che consiglia di usare l'API Pandas in Spark .

Koalas fornisce una sostituzione drop-in per pandas. Usato comunemente dai data scientist, pandas è un pacchetto Python che offre strutture di dati e strumenti di analisi dei dati facili da usare per il linguaggio di programmazione Python. Tuttavia, pandas non aumenta il numero di istanze in Big Data. Koalas riempie questo divario fornendo API equivalenti pandas che funzionano in Apache Spark. Koalas è utile non solo per gli utenti pandas, ma anche per gli utenti di PySpark, perché Koalas supporta molte attività difficili da eseguire con PySpark, ad esempio tracciando i dati direttamente da un dataframe PySpark.

Requisiti

  • Koalas è incluso nei cluster che eseguono Databricks Runtime da 7.3 a 9.1. Per i cluster che eseguono Databricks Runtime 10.0 e versioni successive, usare invece l'API Pandas in Spark .
  • Per usare Koalas in un cluster che esegue Databricks Runtime 7.0 o versione successiva, installare Koalas come libreria PyPI di Azure Databricks.
  • Per usare Koalas in un IDE, un server notebook o altre applicazioni personalizzate che si connettono a un cluster Azure Databricks, installare Databricks Connect e seguire le istruzioni di installazione di Koalas.

Notebook

Il notebook seguente illustra come eseguire la migrazione da pandas a Koalas.

notebook da pandas a Koalas

Ottenere il notebook

Risorse