Megosztás a következőn keresztül:


Koalas

Fontos

Ez a dokumentáció ki lett állítva, és lehet, hogy nem frissül. A tartalomban említett termékek, szolgáltatások vagy technológiák már nem támogatottak. Lásd a Pandas API-t a Sparkban.

Megjegyzés:

Koalas elavult. Ha a Databricks Runtime 10.0-t (nem támogatott) és újabb verziót futtató fürtökön próbál Koalast használni, megjelenik egy tájékoztató üzenet, amely azt javasolja, hogy inkább a Pandas API-t használja a Sparkban.

Koalas biztosítja a drop-in helyett pandas. Az adattudósok által gyakran használt pandas egy Python-csomag, amely könnyen használható adatstruktúrákat és adatelemzési eszközöket biztosít a Python programozási nyelvhez. A pandas azonban nem méretez big data-ra. A Koalas ezt a rést azzal tölti ki, hogy az Apache Sparkon működő pandas-egyenértékű API-kat biztosít. A Koalas nem csak a pandas, hanem a PySpark felhasználói számára is hasznos, mert a Koalas számos olyan feladatot támogat, amelyet nehéz elvégezni a PySparkkal, például közvetlenül a PySpark DataFrame-ből ábrázolja az adatokat.

Requirements

  • A Koalas a Databricks Runtime 7.3–9.1-et futtató fürtökön található. A Databricks Runtime 10.0-s vagy újabb verzióját futtató fürtök esetében használja helyette a Pandas API-t a Sparkon .
  • Ha a Koalast a Databricks Runtime 7.0-s vagy újabb verzióját futtató fürtön szeretné használni, telepítse a Koalákat Azure Databricks PyPI-kódtárként.
  • Ha a Koalast IDE-ben, notebook-kiszolgálón vagy más egyéni alkalmazásokban szeretné használni, amelyek egy Azure Databricks-fürthöz csatlakoznak, telepítse a Databricks Csatlakozás, és kövesse a Koalas telepítési utasításait.

Notebook

Az alábbi jegyzetfüzet bemutatja, hogyan migrálhat pandasból Koalasba.

pandas a Koalas notebook

Jegyzetfüzet beszerzése

Források