Tutorial: Uso de un cuaderno con Apache Spark para consultar una base de datos de KQL

Importante

Microsoft Fabric se encuentra actualmente en versión preliminar. Esta información está relacionada con un producto en versión preliminar que puede modificarse considerablemente antes de su lanzamiento. Microsoft no ofrece ninguna garantía, expresa o implícita, con respecto a la información que se ofrece aquí.

Los cuadernos son documentos legibles que contienen descripciones de análisis de datos y resultados, así como documentos ejecutables que se pueden ejecutar para realizar análisis de datos. En este artículo, aprenderá a usar un cuaderno de Microsoft Fabric para leer y escribir datos en una base de datos KQL mediante Apache Spark. En este tutorial se usan conjuntos de datos y cuadernos creados previamente en entornos de Análisis en tiempo real y de Ingeniería de datos en Microsoft Fabric. Para obtener más información sobre los cuadernos, consulte Uso de cuadernos de Microsoft Fabric.

Específicamente, aprenderá sobre lo siguiente:

  • Creación de una base de datos KQL
  • Importación de un cuaderno
  • Escritura de datos en una base de datos de KQL mediante Apache Spark
  • Consulta de datos de una base de datos KQL

Requisitos previos

1- Creación de una base de datos KQL

  1. Abra el conmutador de experiencia en la parte inferior del panel de navegación y seleccione Análisis en tiempo real.

  2. Seleccione el icono KQL Database (preview) (Base de datos KQL [versión preliminar]).

    Captura de pantalla del nuevo icono de base de datos de KQL en Real-Time Analytics.

  3. En el campo KQL Database name (Nombre de la base de datos KQL ), escriba nycGreenTaxi y seleccione Crear.

    La base de datos KQL se ha creado ahora en el contexto del área de trabajo seleccionada.

  4. Copie el URI de consulta de la tarjeta de detalles de la base de datos en el panel de la base de datos y péguelo en algún lugar, como un Bloc de notas, para usarlo en un paso posterior.

     Captura de pantalla de la tarjeta de detalles de la base de datos que muestra los detalles de la base de datos. La opción URI de consulta titulada Copy URI (Copiar URI) está resaltada.

2- Descargar el cuaderno nyc GreenTaxi

Hemos creado un cuaderno de ejemplo que le lleva a través de todos los pasos necesarios para cargar datos en la base de datos mediante el conector de Spark.

  1. Abra el repositorio de ejemplos de Fabric en GitHub para descargar el cuaderno nyc GreenTaxi KQL.

    Captura de pantalla del repositorio de GitHub que muestra el cuaderno nyc GreenTaxi. La opción Raw está resaltada.

  2. Guarde el cuaderno localmente en el dispositivo.

    Nota:

    El cuaderno debe guardarse en el formato de .ipynb archivo.

3- Importación del cuaderno

El resto de este flujo de trabajo se produce en la sección Ingeniería de datos del producto y usa un cuaderno de Spark para cargar y consultar datos en la base de datos KQL.

  1. Abra el conmutador de experiencia en la parte inferior del panel de navegación y seleccione Ingeniería de datos.

  2. Seleccione Importar cuaderno.

    Captura de pantalla de las opciones de elemento en Ingeniería de datos. El elemento titulado Import notebook (Importar cuaderno) está resaltado.

  3. En la ventana Estado de importación , seleccione Cargar.

    Captura de pantalla de la ventana Importar estado. El botón titulado Upload (Cargar) está resaltado.

  4. Seleccione el cuaderno nyc GreenTaxi que descargó en un paso anterior.

  5. Una vez completada la importación, vuelva al área de trabajo para abrir este cuaderno.

4- Obtener datos

Para consultar la base de datos mediante el conector de Spark, debe proporcionar acceso de lectura y escritura al contenedor de blobs Nyc GreenTaxi.

Seleccione el botón reproducir para ejecutar las celdas siguientes o seleccione la celda y presione Mayús+ Entrar. Repita este paso para cada celda de código.

Nota:

Espere a que aparezca la marca de verificación de finalización antes de ejecutar la celda siguiente.

  1. Ejecute la celda siguiente para habilitar el acceso al contenedor de blobs nyc GreenTaxi.

    Captura de pantalla de la primera celda de código que muestra la información de acceso al almacenamiento.

  2. En KustoURI, pegue el URI de consulta que copió anteriormente en lugar del texto del marcador de posición.

  3. Cambie el nombre de la base de datos de marcador de posición a nycGreenTaxi.

  4. Cambie el nombre de la tabla de marcador de posición a GreenTaxiData.

    Captura de pantalla de la segunda celda de código que muestra la información de la base de datos de destino. El URI de consulta, el nombre de la base de datos y el nombre de la tabla están resaltados.

  5. Ejecute la celda.

  6. Ejecute la celda siguiente para escribir datos en la base de datos. Este paso puede tardar unos minutos en completarse.

    Captura de pantalla de la tercera celda de código en la que se muestra el comando de asignación y ingesta de tablas.

La base de datos ahora tiene datos cargados en una tabla denominada GreenTaxiData.

5- Ejecución del cuaderno

Ejecute las dos celdas restantes secuencialmente para consultar datos de la tabla. Los resultados muestran las 20 tarifas y distancias de taxi más altas y más bajas registradas por año.

Captura de pantalla de la celda de código cuarta y quinta que muestra los resultados de la consulta.

6- Limpieza de recursos

Limpie los elementos creados; para ello, vaya al área de trabajo en la que se crearon.

  1. En el área de trabajo, mantenga el puntero sobre el cuaderno que desea eliminar, seleccione el menú Más [...] >Eliminar.

    Captura de pantalla del área de trabajo en la que se muestra el menú desplegable del cuaderno nyc GreenTaxi. La opción denominada Eliminar está resaltada.

  2. Seleccione Eliminar. No puede recuperar el cuaderno una vez que lo elimine.

Pasos siguientes