OneLake, el OneDrive para datos

2024-07-25

OneLake es un lago de datos único, unificado y lógico para toda la organización. Un lago de datos procesa grandes volúmenes de datos de varios orígenes. Al igual que OneDrive, OneLake viene automáticamente con todos los inquilinos de Microsoft Fabric y está diseñado para ser el único lugar para todos los datos de análisis. OneLake ofrece a los clientes:

Un lago de datos para toda la organización
Una copia de datos para su uso con varios motores de análisis

Un lago de datos para toda la organización

Antes de OneLake, era más fácil para los clientes crear varios lagos para diferentes grupos empresariales en lugar de colaborar en un solo lago, incluso con la sobrecarga adicional de administrar varios recursos. OneLake se centra en eliminar estos desafíos al mejorar la colaboración. Cada inquilino de cliente tiene exactamente una instancia de OneLake. Nunca puede haber más de una y si tiene Fabric, nunca puede haber cero. Cada inquilino de Fabric aprovisiona automáticamente OneLake, sin recursos adicionales para configurar o administrar.

Está administrado de manera predeterminada con propiedad compartida para la colaboración

El concepto de inquilino es una ventaja única de un servicio SaaS. Saber dónde comienza y termina una organización del cliente proporciona un límite natural de gobernanza y cumplimiento, que está bajo el control de un administrador de inquilinos. Los datos que llegan a OneLake se rigen de forma predeterminada. Aunque todos los datos están dentro de los límites establecidos por el administrador de inquilinos, es importante que este administrador no se convierta en un guardián central que impida que otras partes de la organización contribuyan a OneLake.

Dentro de un inquilino, puede crear cualquier número de áreas de trabajo. Las áreas de trabajo permiten que diferentes partes de la organización distribuyan las directivas de propiedad y acceso. Cada área de trabajo forma parte de una capacidad asociada a una región específica y se factura por separado.

Dentro de un área de trabajo, puede crear elementos de datos y acceder a todos los datos de OneLake a través de elementos de datos. De forma similar a cómo Office almacena archivos de Word, Excel y PowerPoint en OneDrive, Fabric almacena almacenes de lago, almacenes y otros elementos en OneLake. Los elementos pueden ofrecer experiencias adaptadas para cada usuario, como la experiencia del desarrollador de Apache Spark en un almacén de datos tipo lakehouse.

Para obtener más información sobre cómo empezar a usar OneLake, consulte Creación de un lakehouse con OneLake.

Abierto en todos los niveles

OneLake está abierto en todos los niveles. OneLake se basa en Azure Data Lake Storage (ADLS) Gen2 y puede admitir cualquier tipo de archivo, estructurado o no estructurado. Todos los elementos de datos de Fabric, como almacenes de datos y lakehouses, almacenan sus datos automáticamente en OneLake en formato Delta Parquet. Si un ingeniero de datos carga datos en una instancia de lakehouse mediante Apache Spark y, a continuación, un desarrollador de SQL usa T-SQL para cargar datos en un almacenamiento de datos totalmente transaccional, ambos contribuyen al mismo lago de datos. OneLake almacena todos los datos tabulares en formato Delta Parquet.

OneLake admite las mismas API y SDK de ADLS Gen2 para que sean compatibles con las aplicaciones existentes de ADLS Gen2, incluido Azure Databricks. Puede abordar los datos en OneLake como si fuera una cuenta de almacenamiento de ADLS grande para toda la organización. Cada área de trabajo aparece como un contenedor dentro de esa cuenta de almacenamiento y los distintos elementos de datos aparecen como carpetas dentro de esos contenedores.

Para obtener más información sobre las API y los puntos de conexión, consulte Acceso a OneLake y API. Para obtener ejemplos de integraciones de OneLake con Azure, consulte los artículos Azure Synapse Analytics, Explorador de almacenamiento de Azure, Azure Databricks y Azure HDInsight.

Explorador de archivos de OneLake para Windows

OneLake es el OneDrive para los datos. Al igual que sucede con OneDrive, el explorador de archivos de OneLake para Windows permite explorar fácilmente los datos de OneLake. Puede navegar por todas las áreas de trabajo y los elementos de datos, cargar, descargar o modificar archivos fácilmente como lo hace en Office. El explorador de archivos de OneLake simplifica el trabajo con lagos de datos, lo que permite incluso a los usuarios empresariales no técnicos usarlos.

Para obtener más información, consulte Explorador de datos de OneLake.

Una copia de los datos

OneLake tiene como objetivo proporcionarle el máximo valor posible de una sola copia de datos sin movimiento o duplicación de datos. Ya no es necesario copiar datos solo para usarlos con otro motor o para desglosar silos para poder analizar los datos con datos de otros orígenes.

Los accesos directos conectan datos entre dominios sin movimiento de datos

Los accesos directos le permiten a su organización compartir fácilmente datos entre usuarios y aplicaciones sin tener que mover ni duplicar información innecesariamente. Cuando los equipos trabajan de forma independiente en áreas de trabajo independientes, los accesos directos le permiten combinar datos entre distintos grupos de negocios y dominios en un producto de datos virtual para ajustarse a las necesidades específicas de un usuario.

Un acceso directo es una referencia a los datos almacenados en otras ubicaciones de archivos. Estas ubicaciones de archivos pueden encontrarse dentro de la misma área de trabajo o en áreas de trabajo diferentes, tanto dentro de OneLake como fuera de él, en ADLS, S3 o Dataverse (y pronto habrá más ubicaciones de destino). Independientemente de la ubicación, los accesos directos hacen que los archivos y carpetas tengan un aspecto similar al almacenado localmente.

Para obtener más información sobre cómo usar accesos directos, consulte Accesos directos de OneLake.

Una copia de datos con varios motores de análisis

Aunque las aplicaciones pueden tener separados el almacenamiento y la computación, a menudo los datos se optimizan para un único motor, lo que dificulta su reutilización en varias aplicaciones. Con Fabric, los diferentes motores analíticos (T-SQL, Apache Spark, Analysis Services, etc.) almacenan datos en el formato Delta Parquet abierto para permitirle usar los mismos datos en varios motores.

Ya no es necesario copiar datos para usarlos con otro motor. Siempre puede elegir el mejor motor para el trabajo que está intentando llevar a cabo. Por ejemplo, imagine que tiene un equipo de ingenieros de SQL que crean un almacenamiento de datos totalmente transaccional. Pueden usar el motor de T-SQL y toda la potencia de T-SQL para crear tablas, transformar datos y cargarlos en tablas. Si un científico de datos quiere usar estos datos, ya no es necesario pasar por un controlador especial de Spark/SQL. OneLake almacena todos los datos en formato Delta Parquet. Los científicos de datos pueden usar toda la potencia del motor de Spark y sus bibliotecas de código abierto directamente sobre los datos.

Los usuarios empresariales pueden crear informes de Power BI directamente sobre OneLake mediante el nuevo modo Direct Lake en el motor de Analysis Services. El motor Analysis Services es lo que impulsa los modelos de datos de Power BI y siempre ha ofrecido dos modos de acceso a los datos: importación y consulta directa. El modo Direct Lake proporciona a los usuarios toda la velocidad de importación sin necesidad de copiar los datos, combinando lo mejor de la importación y la consulta directa. Para obtener más información, consulte Direct Lake.

Diagrama de ejemplo que muestra la carga de datos mediante Spark, la consulta mediante T-SQL y la visualización de los datos en un informe de Power BI.

Creación de un almacén de lago con OneLake

Compartir a través de