Eventos
Únase a nosotros en FabCon Vegas
31 mar, 23 - 2 abr, 23
El último evento dirigido por la comunidad de Microsoft Fabric, Power BI, SQL y AI. 31 de marzo al 2 de abril de 2025.
Regístrate hoyEste explorador ya no se admite.
Actualice a Microsoft Edge para aprovechar las características y actualizaciones de seguridad más recientes, y disponer de soporte técnico.
En este artículo, se muestra un trabajo de Azure Databricks que organiza las tareas para leer y procesar un conjunto de datos de ejemplo. En esta guía de inicio rápido:
Si su área de trabajo está habilitada para Unity Catalog y Serverless Jobs está habilitado, por defecto, el trabajo se ejecuta en Serverless compute. No necesita permiso de creación de clústeres para ejecutar el trabajo con proceso sin servidor.
De lo contrario, deberá tener permiso de creación de clústeres para crear procesos de trabajo o permisos para recursos informáticos polivalentes.
Debe tener un volumen en Unity Catalog. En este artículo se usa un volumen denominado my-volume
en un esquema denominado default
dentro de un catálogo denominado main
. Además, debe tener los permisos siguientes en Unity Catalog:
READ VOLUME
y WRITE VOLUME
, o ALL PRIVILEGES
, para el volumen my-volume
.USE SCHEMA
o ALL PRIVILEGES
para el esquema default
.USE CATALOG
o ALL PRIVILEGES
para el catálogo main
.Para establecer estos permisos, consulte el administrador de Databricks o los privilegios de Unity Catalog y objetos protegibles.
Para crear un cuaderno para recuperar el conjunto de datos de ejemplo y guardarlo en Unity Catalog:
Vaya a la página de aterrizaje de Azure Databricks y haga clic en Nuevo en la barra lateral y seleccione Notebook. Databricks crea y abre un nuevo cuaderno en blanco en la carpeta predeterminada. El idioma predeterminado es el idioma que ha usado de manera más reciente y el cuaderno se adjunta automáticamente al recurso de proceso que ha usado de manera más reciente.
Si es necesario, cambie el lenguaje predeterminado a Python.
Copie el código de Python siguiente y péguelo en la primera celda del cuaderno.
import requests
response = requests.get('https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv')
csvfile = response.content.decode('utf-8')
dbutils.fs.put("/Volumes/main/default/my-volume/babynames.csv", csvfile, True)
Para crear un cuaderno para leer y presentar los datos para filtrarlos:
Vaya a la página de aterrizaje de Azure Databricks y haga clic en Nuevo en la barra lateral y seleccione Notebook. Databricks crea y abre un nuevo cuaderno en blanco en la carpeta predeterminada. El idioma predeterminado es el idioma que ha usado de manera más reciente y el cuaderno se adjunta automáticamente al recurso de proceso que ha usado de manera más reciente.
Si es necesario, cambie el lenguaje predeterminado a Python.
Copie el código de Python siguiente y péguelo en la primera celda del cuaderno.
babynames = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("/Volumes/main/default/my-volume/babynames.csv")
babynames.createOrReplaceTempView("babynames_table")
years = spark.sql("select distinct(Year) from babynames_table").toPandas()['Year'].tolist()
years.sort()
dbutils.widgets.dropdown("year", "2014", [str(x) for x in years])
display(babynames.filter(babynames.Year == dbutils.widgets.get("year")))
Haga clic en Flujos de trabajo en la barra lateral.
Haga clic en el .
La pestaña Tasks (Tareas) se muestra con el cuadro de diálogo Create task (Crear tarea).
Reemplace Add a name for your job… (Agregar un nombre para el trabajo…) por el nombre del trabajo.
En el campo Task name (Nombre de tarea), escriba un nombre para la tarea; por ejemplo, retrieve-baby-names.
En el menú desplegable Tipo, seleccione Notebook.
Use el explorador de archivos para buscar el primer cuaderno que creó, haga clic en el nombre del cuaderno y haga clic en Confirm (Confirmar).
Haga clic en Create task (Crear tarea).
Haga clic en el debajo de la tarea que acaba de crear para agregar otra tarea.
En el campo Task name (Nombre de tarea), escriba un nombre para la tarea; por ejemplo, filter-baby-names.
En el menú desplegable Tipo, seleccione Notebook.
Use el explorador de archivos para buscar el segundo cuaderno que creó, haga clic en el nombre del cuaderno y haga clic en Confirm (Confirmar).
Haga clic en Add (Agregar) en Parameters (Parámetros). En el campo Key (Clave), escriba year
. En el campo Value (Valor), escriba 2014
.
Haga clic en Create task (Crear tarea).
Para ejecutar el trabajo inmediatamente, haga clic en el en la esquina superior derecha. También puede ejecutar el trabajo haciendo clic en la pestaña Runs (Ejecuciones) y haciendo clic en Run now (Ejecutar ahora) en la tabla Active Runs (Ejecuciones activas).
Haga clic en la pestaña Runs y haga clic en el vínculo para la ejecución en la tabla Active Runs o en la tabla Completed Runs (past 60 days).
Haga clic en cualquiera de las tareas para ver la salida y los detalles. Por ejemplo, haga clic en la tarea filter-baby-names para ver la salida y los detalles de la ejecución de la tarea de filtro:
Para volver a ejecutar el trabajo y filtrar los nombres de bebés para otro año:
2015
.Eventos
Únase a nosotros en FabCon Vegas
31 mar, 23 - 2 abr, 23
El último evento dirigido por la comunidad de Microsoft Fabric, Power BI, SQL y AI. 31 de marzo al 2 de abril de 2025.
Regístrate hoyCursos
Módulo
Automatización de cargas de trabajo con trabajos de Azure Databricks - Training
Automatización de cargas de trabajo con trabajos de Azure Databricks
Certificación
Microsoft Certified: Azure Data Scientist Associate - Certifications
Administre la ingesta y preparación de datos, el entrenamiento y la implementación de modelos, y la supervisión de soluciones de aprendizaje automático con Python, Azure Machine Learning y MLflow.