Obtención de datos de Azure Storage

La ingesta de datos es el proceso que se usa para cargar datos de uno o varios orígenes en una tabla de Azure Data Explorer. Una vez ingeridos, los datos están disponibles para su consulta. En este artículo, aprenderá a obtener datos de Azure Storage (contenedor de ADLS Gen2, contenedor de blobs o blobs individuales) en una tabla nueva o existente.

La ingesta se puede realizar como una operación única o como un método continuo. La ingesta continua solo se puede configurar a través del portal.

Para obtener información general sobre la ingesta de datos, consulte Introducción a la ingesta de datos de Azure Data Explorer.

Requisitos previos

Obtención de datos

  1. En el menú de la izquierda, seleccione Consulta.

  2. Haga clic con el botón derecho en la base de datos donde desea ingerir los datos. Seleccione Obtener datos.

    Captura de pantalla de la pestaña consulta, con el botón derecho en una base de datos y el cuadro de diálogo Obtener opciones abierto.

Source

En la ventana Obtener datos , se selecciona la pestaña Origen .

Seleccione el origen de datos de la lista disponible. En este ejemplo, va a ingerir datos de Azure Storage.

Captura de pantalla de la ventana Obtener datos con la pestaña origen seleccionada.

Configurar

  1. Seleccione una base de datos y una tabla de destino. Si desea ingerir datos en una nueva tabla, seleccione + Nueva tabla y escriba un nombre de tabla.

    Nota

    Los nombres de tabla pueden tener hasta 1024 caracteres, incluidos espacios, alfanuméricos, guiones y caracteres de subrayado. No se admiten caracteres especiales.

  2. Para agregar el origen, seleccione Seleccionar contenedor o Agregar URI.

    1. Si seleccionó Seleccionar contenedor, rellene los campos siguientes:

      Captura de pantalla de la pestaña configurar con la nueva tabla especificada y un archivo de datos de ejemplo seleccionado.

      Configuración Descripción del campo
      Subscription Identificador de suscripción donde se encuentra la cuenta de almacenamiento.
      Cuenta de almacenamiento Nombre que identifica la cuenta de almacenamiento.
      Contenedor El contenedor de almacenamiento que desea ingerir.
      Filtros de archivo (opcional)
      Ruta de acceso a la carpeta Filtra los datos para ingerir archivos con una ruta de acceso de carpeta específica.
      Extensión de archivo Filtra los datos para ingerir archivos solo con una extensión de archivo específica.
    2. Si seleccionó Agregar URI, pegue el cadena de conexión de almacenamiento para un contenedor de blobs o archivos individuales en el campo URI y, a continuación, seleccione +.

      Nota

      • Puede agregar hasta 10 blobs individuales. Cada blob puede ser un máximo de 1 GB sin comprimir.
      • Puede ingerir hasta 5000 blobs de un solo contenedor.

      Captura de pantalla de la pestaña configurar con el cadena de conexión pegado en el campo URI.

  3. Seleccione Siguiente.

Inspeccionar

Se abre la pestaña Inspeccionar con una vista previa de los datos.

Para completar el proceso de ingesta, seleccione Finalizar.

Captura de pantalla de la pestaña inspeccionar.

Opcionalmente:

Editar columnas

Nota

  • En el caso de los formatos tabulares (CSV, TSV, PSV), no se puede asignar una columna dos veces. Para asignar a una columna existente, elimine primero la nueva columna.
  • No se puede cambiar un tipo de columna existente. Si intenta asignar a una columna con un formato diferente, puede acabar con columnas vacías.

Los cambios que pueda realizar a una tabla dependerán de los siguientes parámetros:

  • El tipo de tabla es nuevo o existente
  • El tipo de asignación es nuevo o existente
Tipo de tabla. Tipo de asignación Ajustes disponibles
Tabla nueva Asignación nueva Cambiar nombre de columna, cambiar el tipo de datos, cambiar el origen de datos, la transformación de asignación, agregar columna, eliminar columna
Tabla existente Asignación nueva Agregar columna (en la que puede cambiar el tipo de datos, cambiar el nombre y actualizar)
Tabla existente Asignación existente ninguno

Captura de pantalla de las columnas abiertas para su edición.

Asignación de transformaciones

Algunas de las asignaciones de formato de datos (Parquet, JSON y Avro) admiten transformaciones sencillas en el momento de la ingesta. Para aplicar transformaciones de asignación, cree o actualice una columna en la ventana Editar columnas .

Las transformaciones de asignación se pueden realizar en una columna de tipo cadena o datetime, con el origen que tiene el tipo de datos int o long. Las asignaciones de transformaciones que se admiten son:

  • DateTimeFromUnixSeconds
  • DateTimeFromUnixMilliseconds
  • DateTimeFromUnixMicroseconds
  • DateTimeFromUnixNanoseconds

Opciones avanzadas basadas en el tipo de datos

Tabular (CSV, TSV, PSV):

  • Si va a ingerir formatos tabulares en una tabla existente, puede seleccionar AdvancedKeep current table schema (Mantener el esquema de tabla actualavanzado>). Los datos tabulares no incluyen necesariamente los nombres de columna que se usan para asignar datos de origen a las columnas existentes. Cuando se activa esta opción, la asignación se realiza por orden y el esquema de tabla sigue siendo el mismo. Si esta opción está desactivada, se crean nuevas columnas para los datos entrantes, independientemente de la estructura de datos.

  • Para usar la primera fila como nombres de columna, seleccione AdvancedFirst row is column header (La primera fila avanzada> es el encabezado de columna).

    Captura de pantalla de las opciones avanzadas de CSV.

JSON:

  • Para determinar la división de columnas de datos JSON, seleccione Nivelesanidadosavanzados>, de 1 a 100.

  • Si selecciona AdvancedIgnore data format errors (Omitir errores de formato de datos),> los datos se ingieren en formato JSON. Si no selecciona esta casilla, los datos se ingieren en formato de JSON múltiple.

    Captura de pantalla de las opciones avanzadas de JSON.

Resumen

En la ventana Preparación de datos, los tres pasos se marcan con marcas de verificación verdes cuando la ingesta de datos finaliza correctamente. Puede ver los comandos que se usaron para cada paso o seleccionar una tarjeta para consultar, visualizar o quitar los datos ingeridos.

Captura de pantalla de la página de resumen con la ingesta correcta completada.