Compartir a través de


OneLake, el OneDrive para datos

OneLake es un lago de datos único, unificado y lógico para toda la organización. Al igual que OneDrive, OneLake viene automáticamente con todos los inquilinos de Microsoft Fabric y está diseñado para ser el único lugar para todos los datos de análisis.

OneLake ofrece a los clientes:

  • Un lago de datos para toda la organización
  • Una copia de datos para su uso con varios motores de análisis

Un lago de datos para toda la organización

Antes de OneLake, muchas organizaciones crearon varios lagos para diferentes grupos empresariales, lo que llevó a una sobrecarga adicional para administrar varios recursos. OneLake elimina estos desafíos mejorando la colaboración:

  • Cada inquilino de Fabric obtiene automáticamente un oneLake
  • No puede crear varios OneLakes ni eliminar su OneLake
  • No hay recursos adicionales para aprovisionar ni administrar

Esta simplicidad ayuda a su organización a colaborar en un único lago de datos unificado.

Está administrado de manera predeterminada con propiedad compartida para la colaboración

El nivel superior de organización y gobernanza de los datos de Fabric es el inquilino. Los datos que llegan a OneLake se protegen automáticamente mediante directivas de nivel de inquilino para la seguridad, el cumplimiento y la administración de datos.

Dentro de una entidad, la colaboración tiene lugar en áreas de trabajo. Puede crear cualquier número de áreas de trabajo para organizar los datos. Las áreas de trabajo permiten que diferentes partes de la organización distribuyan las directivas de propiedad y acceso. Cada área de trabajo forma parte de una capacidad asociada a una región específica y facturada por separado.

Diagrama que muestra la función y la estructura de OneLake.

Dentro de un área de trabajo, crea y accede a todos los datos a través de elementos de datos. De forma similar a cómo Office almacena archivos de Word, Excel y PowerPoint en OneDrive, Fabric almacena almacenes de lago, almacenes y otros elementos en OneLake. Cada tipo de elemento proporciona experiencias personalizadas para diferentes personas, como la experiencia de desarrollador de Apache Spark en un entorno Lakehouse.

Basado en estándares y formatos abiertos

OneLake se basa en Azure Data Lake Storage (ADLS) Gen2 y puede admitir cualquier tipo de archivo, estructurado o no estructurado. Todos los elementos de datos de Fabric, como almacenes de datos y lakehouses, almacenan sus datos automáticamente en OneLake en formato Delta Parquet. Si un ingeniero de datos carga datos en una instancia de lakehouse mediante Apache Spark y, a continuación, un desarrollador de SQL usa T-SQL para cargar datos en un almacenamiento de datos totalmente transaccional, ambos contribuyen al mismo lago de datos. OneLake almacena todos los datos tabulares en formato Delta Parquet.

OneLake admite las mismas API y SDK de ADLS Gen2 para que sean compatibles con las aplicaciones existentes de ADLS Gen2, incluido Azure Databricks. Puede abordar los datos en OneLake como si fuera una cuenta de almacenamiento de ADLS grande para toda la organización. Cada área de trabajo aparece como un contenedor dentro de esa cuenta de almacenamiento y los distintos elementos de datos aparecen como carpetas dentro de esos contenedores.

Diagrama que muestra cómo puede acceder a los datos de OneLake con API y SDK.

Para obtener más información sobre las API y los puntos de conexión, consulte Acceso a OneLake y API. Para obtener ejemplos de integraciones de OneLake con Azure, consulte los artículos Azure Synapse Analytics, Explorador de almacenamiento de Azure, Azure Databricks y Azure HDInsight.

Explorador de archivos de OneLake para Windows

Puede explorar los datos de OneLake desde Windows mediante el explorador de archivos oneLake para Windows. Puede navegar por todas las áreas de trabajo y los elementos de datos, cargar, descargar o modificar archivos fácilmente como lo hace en Office. El explorador de archivos de OneLake simplifica el trabajo con lagos de datos, lo que permite incluso a los usuarios empresariales no técnicos usarlos.

Para obtener más información, consulte Explorador de datos de OneLake.

Una copia de los datos

OneLake tiene como objetivo proporcionarle el máximo valor posible a partir de una sola copia de datos sin movimiento o duplicación de datos. No es necesario copiar datos solo para usarlos con otro motor o para analizar datos de varios orígenes.

Los accesos directos conectan datos entre dominios sin movimiento de datos

Un acceso directo es una referencia a los datos almacenados en otras ubicaciones de archivos. Estas ubicaciones de archivos pueden estar dentro del mismo área de trabajo o entre áreas de trabajo diferentes, dentro de OneLake o externas a OneLake, como ADLS, S3 o Dataverse. Independientemente de la ubicación, los accesos directos hacen que los archivos y carpetas tengan un aspecto similar al almacenado localmente.

Los accesos directos permiten a su organización compartir datos entre usuarios y aplicaciones sin tener que mover y duplicar información innecesariamente. Cuando los equipos trabajan de forma independiente en áreas de trabajo independientes, los accesos directos le permiten combinar datos entre distintos grupos de negocios y dominios en un producto de datos virtual para ajustarse a las necesidades específicas de un usuario.

Diagrama que muestra cómo los accesos directos conectan datos entre áreas de trabajo y elementos.

Para obtener más información sobre cómo usar accesos directos, consulte Accesos directos de OneLake.

Conexión de datos a varios motores analíticos

Los datos suelen optimizarse para un único motor, lo que dificulta la reutilización de los mismos datos para varias aplicaciones. Con Fabric, los diferentes motores analíticos (T-SQL, Apache Spark, Analysis Services y otros) almacenan datos en el formato Delta Parquet abierto para que pueda usar los mismos datos en varios motores.

No es necesario copiar los datos solo para utilizarlos con otro motor, ni sentirse bloqueado con el uso de un motor específico solo porque allí están tus datos. Por ejemplo, imagine un equipo de ingenieros de SQL que crean un almacenamiento de datos totalmente transaccional. Pueden usar el motor de T-SQL y toda la potencia de T-SQL para crear tablas, transformar datos y cargarlos en tablas. Si un científico de datos quiere usar estos datos, no es necesario pasar por un controlador especial de Spark/SQL. OneLake almacena todos los datos en formato Delta Parquet. El científico de datos puede usar toda la potencia del motor de Spark y sus bibliotecas de código abierto directamente sobre los datos.

Los usuarios empresariales pueden crear informes de Power BI directamente sobre OneLake mediante el modo Direct Lake en el motor de Analysis Services. El motor de Analysis Services potencia los modelos semánticos de Power BI y siempre ofrece dos modos de acceso a los datos: importación y consulta directa. Este tercer modo, el modo Direct Lake, proporciona a los usuarios toda la velocidad de importación sin necesidad de copiar los datos, combinando lo mejor de la importación y la consulta directa. Para obtener más información, consulte Direct Lake.

Diagrama de ejemplo que muestra la carga de datos mediante Spark, la consulta mediante T-SQL y la visualización de los datos en un informe de Power BI.

Pasos siguientes

¿Listo para empezar a usar OneLake? A continuación se muestra cómo empezar: