Cómo leer y escribir datos con Pandas en Microsoft Fabric
Los cuadernos de Microsoft Fabric admiten una interacción perfecta con los datos de Lakehouse mediante Pandas, la biblioteca de Python más popular para la exploración y el procesamiento de datos. Dentro de un cuaderno, los usuarios pueden leer rápidamente datos de , y escribir datos en ellos, sus lakehouses en diversos formatos de archivo. En esta guía se proporcionan ejemplos de código que le ayudarán a empezar a trabajar en su propio cuaderno.
Importante
Microsoft Fabric se encuentra actualmente en versión preliminar. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí.
Requisitos previos
Una suscripción de Power BI Premium. Si no tiene una, consulte Cómo comprar Power BI Premium.
Un área de trabajo de Power BI con capacidad Premium asignada. Si no tiene un área de trabajo, siga los pasos descritos en Creación de un área de trabajo para crear una y asignarla a una capacidad Premium.
Inicie sesión en Microsoft Fabric.
Carga de datos de Lakehouse en un cuaderno
Una vez que conecte una instancia de Lakehouse a su cuaderno de Microsoft Fabric, puede explorar los datos almacenados sin salir de la página y leerlos en el cuaderno en cuestión de clics. Seleccione las opciones de superficies de archivos de Lakehouse para "Cargar datos" en un DataFrame de Spark o Pandas. (También puede copiar la ruta de acceso completa de ABFS del archivo o una ruta de acceso relativa descriptivo).
Al hacer clic en una de las indicaciones de "Cargar datos", se generará una celda de código para cargar ese archivo en un DataFrame en el cuaderno.
Conversión de un dataframe de Spark en un dataframe de Pandas
Como referencia, el siguiente comando muestra cómo convertir un dataframe de Spark en un dataframe de Pandas.
# Replace "spark_df" with the name of your own Spark DataFrame
pandas_df = spark_df.toPandas()
Lectura y escritura de varios formatos de archivo
Los ejemplos de código siguientes documenten las operaciones de Pandas para leer y escribir varios formatos de archivo.
Nota:
Debe reemplazar las rutas de acceso de archivo en los ejemplos siguientes. Pandas admite ambas rutas de acceso relativas, como se muestra aquí, y rutas de acceso completas de ABFS. Cualquiera de los dos se puede recuperar y copiar de la interfaz según el paso anterior.
Lectura de datos de un archivo CSV
import pandas as pd
# Read a CSV file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pd.read_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
display(df)
Escritura de datos como un archivo CSV
import pandas as pd
# Write a Pandas DataFrame into a CSV file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_csv("/LAKEHOUSE_PATH/Files/FILENAME.csv")
Lee datos de un archivo Parquet.
import pandas as pd
# Read a Parquet file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
display(df)
Escritura de datos como un archivo Parquet
import pandas as pd
# Write a Pandas DataFrame into a Parquet file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_parquet("/LAKEHOUSE_PATH/Files/FILENAME.parquet")
Leer datos de un archivo de Excel
import pandas as pd
# Read an Excel file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
display(df)
Escribir datos como un archivo de Excel
import pandas as pd
# Write a Pandas DataFrame into an Excel file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_excel("/LAKEHOUSE_PATH/Files/FILENAME.xlsx")
Lee datos de un archivo JSON.
import pandas as pd
# Read a JSON file from your Lakehouse into a Pandas DataFrame
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df = pandas.read_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
display(df)
Escritura de datos como un archivo JSON
import pandas as pd
# Write a Pandas DataFrame into a JSON file in your Lakehouse
# Replace LAKEHOUSE_PATH and FILENAME with your own values
df.to_json("/LAKEHOUSE_PATH/Files/FILENAME.json")
Pasos siguientes
- Uso de Wrangler de datos para limpiar y preparar los datos
- Inicio del entrenamiento de modelos de Machine Learning