Compartir a través de


Obtención de datos de Azure Storage

En este artículo, aprenderá a obtener datos de Azure Storage (contenedor de ADLS Gen2, contenedor de blobs o blobs individuales). Puede ingerir datos en su tabla continuamente o como una ingesta única vez. Una vez ingeridos, los datos están disponibles para la consulta.

  • Ingesta continua (versión preliminar): la ingesta continua implica la configuración de una canalización de ingesta que permite a un centro de eventos escuchar eventos de Azure Storage. La canalización notifica al centro de eventos que extraiga información cuando se produzcan eventos suscritos. Los eventos son BlobCreated y BlobRenamed.

    Importante

    Esta característica se encuentra en versión preliminar.

    Nota

    Un flujo de ingesta continua puede afectar a la facturación. Para obtener más información, consulte Eventhouse and KQL Database consumption (Consumo de la base de datos de KQL y Eventhouse).

  • Ingesta única: use este método para recuperar datos de Azure Storage como una operación única.

Prerrequisitos

Para la ingesta continua, también necesita lo siguiente:

Agrega la asignación del rol de identidad del área de trabajo a la cuenta de almacenamiento

  1. En la configuración del área de trabajo de Fabric, copie el identificador de identidad del área de trabajo.

    Captura de pantalla de la configuración del área de trabajo, con el identificador del área de trabajo resaltado.

  2. En Azure Portal, vaya a la cuenta de Azure Storage y seleccione Control de acceso (IAM)>Agregar asignación> deroles.

  3. Seleccione Lector de datos de Storage Blob.

  4. En el cuadro de diálogo Agregar asignación de roles , seleccione + Seleccionar miembros.

  5. Pega el identificador de identidad del área de trabajo, selecciona la aplicación y, después, Selecciona>Revisar y asignar.

Creación de un contenedor con un archivo de datos

  1. En la cuenta de almacenamiento, seleccione Contenedores.

  2. Seleccione + Contenedor, escriba un nombre para el contenedor y seleccione Guardar.

  3. Entre en el contenedor, seleccione Subir y suba el archivo de datos preparado anteriormente.

    Para obtener más información, consulte formatos admitidos y compresión admitidas.

  4. En el menú contextual, [...], seleccione Propiedades del contenedor y copie la dirección URL que se va a escribir durante la configuración.

    Captura de pantalla que muestra la lista de contenedores con el menú contextual abierto con las propiedades del contenedor resaltadas.

Fuente

Establezca el origen para obtener datos.

  1. En el área de trabajo, abra EventHouse y seleccione la base de datos.

  2. En la cinta de opciones de la base de datos KQL, seleccione Obtener datos.

  3. Seleccione el origen de datos de la lista disponible. En este ejemplo, va a ingerir datos de Azure Storage.

    Captura de pantalla de la ventana Obtener datos con la pestaña origen seleccionada.

Configuración

  1. Seleccione una tabla de destino. Si desea ingerir datos en una nueva tabla, seleccione + Nueva tabla y escriba un nombre de tabla.

    Nota

    Los nombres de tabla pueden tener hasta 1,024 caracteres, entre los que se incluyen espacios, alfanuméricos, guiones y caracteres de subrayado. No se admiten caracteres especiales.

  2. En la configuración de la conexión de Azure Blob Storage, asegúrese de que la ingesta continua se encuentra activada. Está activado de forma predeterminada.

  3. Configure la conexión mediante la creación de una nueva conexión o mediante una conexión existente.

    Para crear una nueva conexión:

    1. Seleccione Conectar a una cuenta de almacenamiento.

      Captura de pantalla de la pestaña Configurar con ingesta continua y conexión a una cuenta seleccionada.

    2. Use las descripciones siguientes para ayudar a rellenar los campos.

      Configuración Descripción del campo
      Suscripción La suscripción de la cuenta de almacenamiento.
      Cuenta de Blob Storage Nombre de la cuenta de almacenamiento.
      Contenedor Contenedor de almacenamiento que contiene el archivo que desea ingerir.
    3. En el campo Conexión , abra la lista desplegable y seleccione + Nueva conexión y, después, Guardar>cerrar. La configuración de conexión está precargada.

    Nota

    La creación de una nueva conexión da como resultado una nueva secuencia de eventos. El nombre se define como <storate_account_name>_eventstream. Asegúrese de no quitar la secuencia de eventos de ingesta continua del área de trabajo.

    Para usar una conexión existente:

    1. Seleccione Seleccionar una cuenta de almacenamiento existente.

      Captura de pantalla de la pestaña Configurar con ingesta continua y conexión a una cuenta existente seleccionada.

    2. Use las descripciones siguientes para ayudar a rellenar los campos.

      Configuración Descripción del campo
      RTAStorageAccount Flujo de eventos que se conecta a tu cuenta de almacenamiento desde Fabric.
      Contenedor Contenedor de almacenamiento que contiene el archivo que desea ingerir.
      Conexión Esto se rellena previamente con la cadena de conexión.
    3. En el campo Conexión , abra la lista desplegable y seleccione la cadena de conexión existente de la lista. A continuación, seleccione Guardar>cerrar.

  4. Opcionalmente, expanda Filtros de archivo y especifique los filtros siguientes:

    Configuración Descripción del campo
    Ruta de acceso a la carpeta Filtra los datos para ingerir archivos con una ruta de acceso de carpeta específica.
    Extensión de archivo Filtra los datos para ingerir archivos solo con una extensión de archivo específica.
  5. En la sección configuración del flujo de eventos, puede seleccionar los eventos que se van a supervisar en configuración avanzada>tipo(s) de evento. De forma predeterminada, se selecciona Blob creado. También puede seleccionar Blob renamed.

    Captura de pantalla de la configuración avanzada con la lista desplegable de tipos de eventos expandida.

  6. Seleccione Siguiente para obtener una vista previa de los datos.

Inspeccionar

La pestaña Inspeccionar se abre con una vista previa de los datos.

Para completar el proceso de ingesta, seleccione Finalizar.

Captura de pantalla de la pestaña inspeccionar.

Nota

Para evocar datos continuos de ingesta y vista previa, asegúrese de cargar un nuevo blob de almacenamiento después de la configuración.

Opcionalmente:

  • Utiliza el menú desplegable del archivo de definición del esquema para cambiar el archivo del que se infiere el esquema.

  • Use la lista desplegable tipo de archivo para explorar opciones avanzadas en función del tipo de datos.

  • Utiliza la lista desplegable Table_mapping para definir un nuevo mapeo.

  • Seleccione </> para abrir el visor de comandos para ver y copiar los comandos automáticos generados a partir de las entradas. También puede abrir los comandos en un Queryset.

  • Seleccione el icono de lápiz para editar columnas.

Editar columnas

Nota

  • En el caso de formatos tabulares (CSV, TSV, PSV), no se puede asignar una columna dos veces. Para asignar a una columna existente, elimine primero la nueva columna.
  • No se puede cambiar un tipo de columna existente. Si intenta asignar a una columna con otro formato, puede acabar con columnas vacías.

Los cambios que puede realizar en una tabla dependen de los parámetros siguientes:

  • El tipo de tabla es nuevo o existente
  • El tipo de asignación es nuevo o existente
Tipo de tabla Tipo de mapeo Ajustes disponibles
Nueva tabla Nuevo mapeo Cambiar nombre de columna, cambiar el tipo de datos, cambiar el origen de datos, transformación de mapeo, agregar columna, eliminar columna
Tabla existente Nuevo mapeo Agregar columna (en la que puede cambiar el tipo de datos, cambiar el nombre y actualizar)
Tabla existente Asignación existente ninguno

Captura de pantalla de las columnas abiertas para su edición.

Transformaciones de mapeo

Algunas asignaciones de formato de datos (Parquet, JSON y Avro) admiten transformaciones sencillas durante la ingestión de datos. Para aplicar transformaciones de asignación, cree o actualice una columna en la ventana Editar columnas.

Las transformaciones de asignación se pueden realizar en una columna de tipo string o datetime, con un origen con un tipo de datos int o long. Para obtener más información, consulte la lista completa de transformaciones de asignación admitidas.

Opciones avanzadas basadas en el tipo de datos

Tabular (CSV, TSV, PSV):

  • Si vas a ingerir formatos tabulares en una tabla existente , puedes seleccionar Avanzado>Mantener el esquema de la tabla. Los datos tabulares no incluyen necesariamente los nombres de columna que se usan para asignar datos de origen a las columnas existentes. Cuando se activa esta opción, la asignación se realiza por orden y el esquema de tabla es el mismo. Si esta opción está desactivada, se crean nuevas columnas para los datos entrantes, independientemente de la estructura de datos.

    Captura de pantalla de opciones avanzadas

  • Los datos tabulares no incluyen necesariamente los nombres de columna que se usan para asignar datos de origen a las columnas existentes. Para usar la primera fila como nombres de columna, seleccione La primera fila es el encabezado de la columna.

    Recorte de pantalla del modificador La primera fila es el encabezado de la columna.

Tabular (CSV, TSV, PSV):

  • Si va a ingerir formatos tabulares en una tabla existente, puede seleccionar Table_mapping>Usar esquema existente. Los datos tabulares no incluyen necesariamente los nombres de columna que se usan para asignar datos de origen a las columnas existentes. Cuando se activa esta opción, la asignación se realiza por orden y el esquema de tabla es el mismo. Si esta opción está desactivada, se crean nuevas columnas para los datos entrantes, independientemente de la estructura de datos.

  • Para usar la primera fila como nombres de columna, seleccione Primer encabezado de fila.

    Captura de pantalla de opciones avanzadas de CSV.

JSON:

  • Para determinar la división de columnas de los datos JSON, seleccione Niveles anidados, de 1 a 100.

    Captura de pantalla de opciones avanzadas de JSON.

Resumen

En la ventana Resumen , todos los pasos se marcan con marcas de verificación verdes cuando la ingesta de datos finaliza correctamente. Puede seleccionar una tarjeta para explorar los datos, eliminar los datos ingeridos o crear un panel con métricas clave.

Captura de pantalla de la página de resumen para la ingestión continua con la ingestión exitosa completada.

Al cerrar la ventana, puede ver la conexión en la pestaña Explorador, en Flujos de datos. Desde aquí, puede filtrar los flujos de datos y eliminar un flujo de datos.

Captura de pantalla del explorador de bases de datos KQL con flujos de datos resaltados.