Referencia a datos en lakehouse para proyectos de Ciencia de datos

En este inicio rápido se explica cómo hacer referencia a los datos almacenados en una cuenta de ADLS externa y cómo usarlos en los proyectos de ciencia de datos. Después de completar este inicio rápido, tendrá un acceso directo al almacenamiento de ADLS en la instancia de LakeHouse y un cuaderno con código de Spark que accede a los datos externos.

Preparar los datos para el acceso directo

  1. En Azure, cree una cuenta de ADLS Gen2

  2. Habilitar los espacios de nombres jerárquicos

    Screenshot of hierarchical namespaces in storage account.

  3. Crear carpetas para los datos

  4. Carga de datos

  5. Incorporación de la identidad de usuario al rol BlobStorageContributor

  6. Obtener el punto final de la cuenta de almacenamiento

Crear un acceso directo

  1. Abra su instancia de Lakehouse para llegar al Explorador de Lakehouse

  2. En archivos, cree una carpeta en la que haga referencia a los datos

  3. Haga clic con el botón derecho en (...) y seleccione Nuevo acceso directo junto al nombre de la carpeta

    Screenshot of new shortcut link.

  4. Seleccionar fuentes externas > ADLS Gen2

  5. Proporcione el nombre del acceso directo, el punto de conexión de la cuenta de almacenamiento y finalice la ubicación de la carpeta de datos en la cuenta de almacenamiento

    Screenshot of new shortcut dialog.

  6. Selección de Crear

Acceso a los datos referenciados en Notebook

  1. Abrir un cuaderno existente o crear nuevo cuaderno
  2. Ancle su lakehouse al cuaderno
  3. Examinar los datos en la carpeta de acceso directo
  4. Seleccione un archivo con datos estructurados y arrástrelo al cuaderno para obtener el código generado
  5. Ejecutar código para obtener el contenido del archivo
  6. Adición de código para el análisis de datos