次の方法で共有


Koalas

重要

このドキュメントは廃止され、更新されない可能性があります。 このコンテンツで言及されている製品、サービス、テクノロジは、サポートされなくなりました。 「Spark 上の Pandas API」を参照してください。

Note

Koalas は非推奨です。 Databricks Runtime 10.0 (サポート期間終了) 以降を実行しているクラスターで Koalas を使用しようとすると、代わりに Spark 上の Pandas API の使用を推奨する情報メッセージが表示されます。

Koalas は、pandas の代わりに簡単に利用できます。 データ サイエンティストによってよく使用されている pandas は、Python プログラミング言語用の使いやすいデータ構造とデータ分析ツールを提供する Python パッケージです。 ただし、pandas はビッグ データにスケールアウトしません。 Koalas では、Apache Spark 上で機能する pandas と同等の API を提供することで、このギャップを埋めています。 Koalas は、pandas ユーザーだけでなく、PySpark ユーザーにも役立ちます。Koalas では、PySpark DataFrame から直接データをプロットするなど、PySpark で行うのが難しい多くのタスクがサポートされているためです。

必要条件

  • Koalas は、Databricks Runtime 7.3 から 9.1 を実行しているクラスターに含まれています。 Databricks Runtime 10.0 以降を実行するクラスターでは、代わりに Spark 上の Pandas API を使用します。
  • Databricks Runtime 7.0 以前を実行しているクラスターで Koalas を使用するには、Azure Databricks の PyPI ライブラリとして Koalas をインストールします。
  • IDE、ノートブック サーバー、または Azure Databricks クラスターに接続するその他のカスタム アプリケーションで Koalas を使用するには、Databricks Connect をインストールし、Koalas のインストール手順に従ってください。

ノートブック

次のノートブックは、pandas から Koalas に移行する方法を示しています。

pandas から Koalas のノートブック

ノートブックを入手

リソース