Koalas

Important

Cette documentation a été mise hors service et peut ne pas être mise à jour. Les produits, services ou technologies mentionnés dans ce contenu ne sont plus pris en charge. Consultez API Pandas sur Spark.

Remarque

Koalas est déprécié. Si vous essayez d’utiliser Koalas sur des clusters exécutant Databricks Runtime 10.0 (non pris en charge) et version ultérieure, un message d’information s’affiche pour vous conseiller d’utiliser plutôt l’API Pandas sur Spark.

Koalas fournit un remplacement direct pour Pandas. Couramment utilisé par les scientifiques des données, Pandas est un package Python qui fournit des structures de données faciles à utiliser et des outils d’analyse de données pour le langage de programmation Python. En revanche, pandas n’effectue pas de scale-out pour le Big Data. Koalas comble cette lacune en fournissant des API équivalentes à pandas qui fonctionnent sur Apache Spark. Koalas est utile non seulement pour les utilisateurs de Pandas, mais aussi pour les utilisateurs de PySpark, car Koalas prend en charge de nombreuses tâches difficiles à accomplir avec PySpark, tel le traçage de données directement à partir d’une trame de données PySpark.

Spécifications

  • Koalas est inclus sur des clusters exécutant Databricks Runtime 7.3 à 9.1. Pour les clusters exécutant Databricks Runtime 10.0 et versions ultérieures, utilisez plutôt l’API Pandas sur Spark.
  • Pour utiliser Koalas sur un cluster exécutant Databricks Runtime 7.0 ou versions antérieures, installez Koalas en tant que bibliothèque PyPI Azure Databricks.
  • Pour utiliser Koalas dans un environnement de développement intégré (IDE), un serveur notebook ou d’autres applications personnalisées qui se connectent à un cluster Azure Databricks, installez Databricks Connect et suivez les instructions d’installation de Koalas.

Notebook

Le notebook suivant montre comment migrer de Pandas vers Koalas.

notebook pandas à Koalas

Obtenir le notebook

Ressources