Referencia a datos en lakehouse para proyectos de Ciencia de datos
En este inicio rápido se explica cómo hacer referencia a los datos almacenados en una cuenta de ADLS externa y cómo usarlos en los proyectos de ciencia de datos. Después de completar este inicio rápido, tendrá un acceso directo al almacenamiento de ADLS en la instancia de LakeHouse y un cuaderno con código de Spark que accede a los datos externos.
Preparar los datos para el acceso directo
En Azure, cree una cuenta de ADLS Gen2
Habilitar los espacios de nombres jerárquicos
Crear carpetas para los datos
Carga de datos
Incorporación de la identidad de usuario al rol BlobStorageContributor
Obtener el punto final de la cuenta de almacenamiento
Crear un acceso directo
Abra su instancia de Lakehouse para llegar al Explorador de Lakehouse
En archivos, cree una carpeta en la que haga referencia a los datos
Haga clic con el botón derecho en (...) y seleccione Nuevo acceso directo junto al nombre de la carpeta
Seleccionar fuentes externas > ADLS Gen2
Proporcione el nombre del acceso directo, el punto de conexión de la cuenta de almacenamiento y finalice la ubicación de la carpeta de datos en la cuenta de almacenamiento
Selección de Crear
Acceso a los datos referenciados en Notebook
- Abrir un cuaderno existente o crear nuevo cuaderno
- Ancle su lakehouse al cuaderno
- Examinar los datos en la carpeta de acceso directo
- Seleccione un archivo con datos estructurados y arrástrelo al cuaderno para obtener el código generado
- Ejecutar código para obtener el contenido del archivo
- Adición de código para el análisis de datos
Contenido relacionado
Comentarios
https://aka.ms/ContentUserFeedback.
Próximamente: A lo largo de 2024 iremos eliminando gradualmente GitHub Issues como mecanismo de comentarios sobre el contenido y lo sustituiremos por un nuevo sistema de comentarios. Para más información, vea:Enviar y ver comentarios de