Nuta
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zalogować się lub zmienić katalogi.
Dostęp do tej strony wymaga autoryzacji. Możesz spróbować zmienić katalogi.
Uwaga
Ta funkcja jest dostępna w klastrach z uruchomionym środowiskiem Databricks Runtime 10.0 (EoS) i nowszymi wersjami. W przypadku klastrów z uruchomionym środowiskiem Databricks Runtime 9.1 LTS i nowszym należy zamiast tego użyć narzędzia Koalas .
Często używane przez analityków danych biblioteka pandas to pakiet języka Python, który zapewnia łatwe w użyciu struktury danych i narzędzia do analizy danych dla języka programowania Python. Jednak biblioteka pandas nie skaluje się do danych big data. Interfejs API biblioteki Pandas na platformie Spark wypełnia tę lukę, zapewniając równoważne interfejsy API biblioteki pandas działające na platformie Apache Spark. Interfejs API biblioteki Pandas na platformie Spark jest przydatny nie tylko dla użytkowników biblioteki pandas, ale także użytkowników PySpark, ponieważ interfejs API biblioteki pandas na platformie Spark obsługuje wiele zadań, które są trudne do wykonania w przypadku narzędzia PySpark, na przykład wykreślenia danych bezpośrednio z ramki danych PySpark.
Wymagania
Interfejs API biblioteki Pandas na platformie Spark jest dostępny począwszy od platformy Apache Spark 3.2 (który jest zawarty w środowisku Databricks Runtime 10.0 (EoS) przy użyciu następującej import instrukcji:
import pyspark.pandas as ps
Notatnik
W poniższym notesie pokazano, jak przeprowadzić migrację z biblioteki pandas do interfejsu API biblioteki pandas na platformie Spark.