События
Присоединяйтесь к нам в FabCon Vegas
31 мар., 23 - 2 апр., 23
Конечное событие Microsoft Fabric, Power BI, SQL и ai community. 31 марта по 2 апреля 2025 г.
Зарегистрироваться сегодняЭтот браузер больше не поддерживается.
Выполните обновление до Microsoft Edge, чтобы воспользоваться новейшими функциями, обновлениями для системы безопасности и технической поддержкой.
Примечание
Эта функция доступна в кластерах, которые выполняют Databricks Runtime 10.0 (EoS) и более поздних версий. Для кластеров с Databricks Runtime 9.1 LTS и более ранних версий вместо нее следует использовать Koalas.
Pandas — это пакет Python, часто используемый специалистами по обработке и анализу данных, который предоставляет удобные в использовании структуры данных и средства анализа данных для языка программирования Python. Однако pandas не масштабируется до больших данных. API Pandas в Spark восполняет этот недостаток, предоставляя API-интерфейсы, эквивалентные Pandas, которые работают в Apache Spark. API Pandas в Spark полезен не только для пользователей Pandas, но и для пользователей PySpark, так как API Pandas в Spark поддерживает множество задач, которые трудно выполнить с помощью PySpark, например построение данных непосредственно из PySpark DataFrame.
API Pandas в Spark доступен начиная с Apache Spark 3.2 (который включается в Databricks Runtime 10.0 (EoS)) с помощью следующей import
инструкции:
import pyspark.pandas as ps
В следующей записной книжке показано, как выполнить миграцию с Pandas на API Pandas в Spark.
События
Присоединяйтесь к нам в FabCon Vegas
31 мар., 23 - 2 апр., 23
Конечное событие Microsoft Fabric, Power BI, SQL и ai community. 31 марта по 2 апреля 2025 г.
Зарегистрироваться сегодняОбучение
Модуль
Использование Apache Spark в Microsoft Fabric - Training
Apache Spark — это основная технология для аналитики данных в большом масштабе. Microsoft Fabric обеспечивает поддержку кластеров Spark, что позволяет анализировать и обрабатывать данные в большом масштабе.