Compartir a través de


Uso de Python para Apache Spark

Microsoft Fabric proporciona compatibilidad integrada con Python para Apache Spark. La compatibilidad incluye PySpark, que permite a los usuarios interactuar con Spark mediante interfaces conocidas de Spark o Python.

Puede analizar datos usando Python a través de definiciones de trabajos por lotes de Spark o con cuadernos Fabric interactivos. En este artículo, se proporciona información general sobre el desarrollo de aplicaciones Spark en Synapse con el lenguaje Python.

Creación y ejecución de sesiones de cuadernos

Un cuaderno de Microsoft Fabric es una interfaz web para crear archivos que contengan código activo, visualizaciones y texto narrativo. Los cuadernos son un buen lugar para validar ideas y aplicar experimentos rápidos para sacar conclusiones a partir de los datos. Los cuadernos también se usan profusamente en la preparación y visualización de datos, el aprendizaje automático y otros escenarios de macrodatos.

Para empezar a trabajar con Python en cuadernos de Microsoft Fabric, cambie el lenguaje principal en la parte superior del cuaderno estableciendo la opción de lenguaje en PySpark (Python).

%%pyspark
# Enter your Python code here

Puede usar varios lenguajes en un cuaderno especificando el comando magic de lenguaje al principio de una celda.

Para obtener más información sobre los cuadernos de Microsoft Fabric Analytics, consulte Uso de cuadernos.

Instalar paquetes

Las bibliotecas proporcionan código reutilizable que se puede incluir en los programas o proyectos. Para que el código de asociado o el código compilado localmente esté disponible para las aplicaciones, instale una biblioteca en línea en la sesión del cuaderno. Como alternativa, el administrador del área de trabajo puede crear un entorno, instalar la biblioteca en él y adjuntar el entorno como valor predeterminado del área de trabajo en la configuración del área de trabajo.

Para obtener más información sobre la administración de bibliotecas en Microsoft Fabric, consulte Administración de bibliotecas de Apache Spark.

Utilidades de cuaderno

Las utilidades de Spark para Microsoft (MSSparkUtils) son un paquete integrado que le ayuda a realizar las tareas más comunes con mayor facilidad. Puede usar MSSparkUtils para trabajar con sistemas de archivos, obtener variables de entorno, encadenar cuadernos entre sí y trabajar con secretos. MSSparkUtils es compatible con los cuadernos PySpark.

Para empezar, ejecute los siguientes comandos:

from notebookutils import mssparkutils
mssparkutils.notebook.help()

Para obtener más información sobre los comandos MSSparkUtils admitidos, consulte Uso de utilidades de Microsoft Spark.

Uso de Pandas en Spark

La API de Pandas en Spark le permite escalar la carga de trabajo de Pandas a cualquier tamaño mediante la ejecución de ella distribuida entre varios nodos. Si ya está familiarizado con Pandas y quiere usar Spark para macrodatos, la API de Pandas en Spark le hace productivo inmediatamente.

Puede migrar las aplicaciones sin modificar el código. Puede tener un único código base que funcione con Pandas para pruebas y conjuntos de datos más pequeños, y con Spark para conjuntos de datos distribuidos y de producción. Puede cambiar entre la API de Pandas y la API de Pandas en Spark fácilmente y sin sobrecarga.

Python en tiempo de ejecución

Microsoft Fabric Runtime es un entorno mantenido optimizado para la ciencia de datos y el aprendizaje automático. El entorno de ejecución de Microsoft Fabric ofrece una variedad de bibliotecas populares de código abierto de Python, incluidas bibliotecas como Pandas, PyTorch, scikit-learn y XGBoost.

Visualización de Python

El ecosistema de Python ofrece varias bibliotecas de gráficos que incluyen muchas características diferentes. De forma predeterminada, cada instancia de Spark en Microsoft Fabric contiene un conjunto seleccionado de bibliotecas populares de código abierto. También puede agregar o administrar otras bibliotecas o versiones. Para obtener más información sobre la administración de bibliotecas, consulte Resumen de los procedimientos recomendados de administración de bibliotecas.

Para obtener más información sobre cómo crear visualizaciones de Python, consulte Visualización de Python.