OneLake is één, geïntegreerde, logische Data Lake voor uw hele organisatie. Een data Lake verwerkt grote hoeveelheden gegevens uit verschillende bronnen. Net als OneDrive wordt OneLake automatisch geleverd met elke Microsoft Fabric-tenant en is ontworpen als de enige plaats voor al uw analysegegevens. OneLake brengt klanten:
Eén data lake voor de hele organisatie
Eén kopie van gegevens voor gebruik met meerdere analytische engines
Eén data lake voor de hele organisatie
VoorDat OneLake was het eenvoudiger voor klanten om meerdere meren te maken voor verschillende bedrijfsgroepen in plaats van samen te werken aan één meer, zelfs met de extra overhead voor het beheren van meerdere resources. OneLake richt zich op het verwijderen van deze uitdagingen door samenwerking te verbeteren. Elke klanttenant heeft precies één OneLake. Er kunnen nooit meer dan één zijn en als u Fabric hebt, kan er nooit nul zijn. Elke Fabric-tenant richt OneLake automatisch in, zonder extra resources om in te stellen of te beheren.
Standaard beheerd met gedistribueerd eigendom voor samenwerking
Het concept van een tenant is een uniek voordeel van een SaaS-service. Weten waar de organisatie van een klant begint en eindigt, biedt een natuurlijke governance- en nalevingsgrens, die onder controle staat van een tenantbeheerder. Alle gegevens die in OneLake terechtkomen, worden standaard beheerd. Hoewel alle gegevens binnen de grenzen vallen die zijn ingesteld door de tenantbeheerder, is het belangrijk dat deze beheerder geen centrale gatekeeper wordt die voorkomt dat andere onderdelen van de organisatie bijdragen aan OneLake.
Binnen een tenant kunt u een willekeurig aantal werkruimten maken. Met werkruimten kunnen verschillende onderdelen van de organisatie eigendom en toegangsbeleid distribueren. Elke werkruimte maakt deel uit van een capaciteit die is gekoppeld aan een specifieke regio en afzonderlijk wordt gefactureerd.
In een werkruimte kunt u gegevensitems maken en alle gegevens in OneLake openen via gegevensitems. Net zoals In Office Word-, Excel- en PowerPoint-bestanden worden opgeslagen in OneDrive, slaat Fabric lakehouses, magazijnen en andere items op in OneLake. Items kunnen aangepaste ervaringen bieden voor elke persona, zoals de Apache Spark-ontwikkelaarservaring in een lakehouse.
OneLake is op elk niveau geopend. OneLake is gebouwd op Azure Data Lake Storage (ADLS) Gen2 en kan elk type bestand, gestructureerd of ongestructureerd ondersteunen. Alle Fabric-gegevensitems, zoals datawarehouses en lakehouses, slaan hun gegevens automatisch op in OneLake in Delta Parquet-indeling. Als een data engineer gegevens in een lakehouse laadt met apache Spark en een SQL-ontwikkelaar T-SQL gebruikt om gegevens in een volledig transactioneel datawarehouse te laden, dragen beide bij aan dezelfde data lake. In OneLake worden alle tabelgegevens opgeslagen in Delta Parquet-indeling.
OneLake ondersteunt dezelfde ADLS Gen2-API's en SDK's die compatibel zijn met bestaande ADLS Gen2-toepassingen, waaronder Azure Databricks. U kunt gegevens in OneLake aanpakken alsof het één groot ADLS-opslagaccount is voor de hele organisatie. Elke werkruimte wordt weergegeven als een container binnen dat opslagaccount en verschillende gegevensitems worden weergegeven als mappen in die containers.
OneLake is de OneDrive voor gegevens. Net als In OneDrive kunt u eenvoudig OneLake-gegevens van Windows verkennen met behulp van de Bestandenverkenner van OneLake voor Windows. U kunt door al uw werkruimten en gegevensitems navigeren, eenvoudig bestanden uploaden, downloaden of wijzigen, net zoals in Office. De Bestandenverkenner van OneLake vereenvoudigt het werken met data lakes, zodat zelfs niet-technische zakelijke gebruikers ze kunnen gebruiken.
OneLake is erop gericht om u de meeste waarde te geven uit één kopie van gegevens zonder gegevensverplaatsing of duplicatie. U hoeft geen gegevens meer te kopiëren om deze te gebruiken met een andere engine of om silo's op te splitsen, zodat u de gegevens kunt analyseren met gegevens uit andere bronnen.
Snelkoppelingen verbinden gegevens tussen domeinen zonder gegevensverplaatsing
Met snelkoppelingen kan uw organisatie eenvoudig gegevens delen tussen gebruikers en toepassingen zonder dat u gegevens onnodig hoeft te verplaatsen en dupliceren. Wanneer teams onafhankelijk werken in afzonderlijke werkruimten, kunt u met snelkoppelingen gegevens in verschillende bedrijfsgroepen en domeinen combineren in een virtueel gegevensproduct om aan de specifieke behoeften van een gebruiker te voldoen.
Een snelkoppeling is een verwijzing naar gegevens die zijn opgeslagen op andere bestandslocaties. Deze bestandslocaties kunnen zich binnen dezelfde werkruimte bevinden of in verschillende werkruimten, binnen OneLake of extern naar OneLake in ADLS, S3 of Dataverse, met binnenkort meer doellocaties. Snelkoppelingen maken bestanden en mappen, ongeacht de locatie, alsof ze lokaal zijn opgeslagen.
Eén kopie van gegevens met meerdere analytische engines
Hoewel toepassingen mogelijk scheiding van opslag en computing hebben, worden de gegevens vaak geoptimaliseerd voor één engine, waardoor het moeilijk is om dezelfde gegevens voor meerdere toepassingen opnieuw te gebruiken. Met Fabric worden met de verschillende analytische engines (T-SQL, Apache Spark, Analysis Services, enzovoort) gegevens opgeslagen in de open Delta Parquet-indeling, zodat u dezelfde gegevens in meerdere engines kunt gebruiken.
Het is niet langer nodig om gegevens te kopiëren om deze te gebruiken met een andere engine. U kunt altijd de beste engine kiezen voor de taak die u probeert uit te voeren. Stel dat u een team van SQL-engineers hebt dat een volledig transactioneel datawarehouse bouwt. Ze kunnen de T-SQL-engine en alle kracht van T-SQL gebruiken om tabellen te maken, gegevens te transformeren en de gegevens in tabellen te laden. Als een data scientist gebruik wil maken van deze gegevens, hoeven ze geen speciaal Spark-/SQL-stuurprogramma meer te doorlopen. In OneLake worden alle gegevens opgeslagen in Delta Parquet-indeling. Gegevenswetenschappers kunnen de volledige kracht van de Spark-engine en de opensource-bibliotheken rechtstreeks over de gegevens gebruiken.
Zakelijke gebruikers kunnen Power BI-rapporten rechtstreeks op OneLake bouwen met behulp van de nieuwe Direct Lake-modus in de Analysis Services-engine. De Analysis Services-engine maakt power BI-semantische modellen mogelijk en biedt altijd twee modi voor toegang tot gegevens: importeren en directe query's. De Direct Lake-modus biedt gebruikers alle snelheid van importeren zonder dat ze de gegevens hoeven te kopiëren, waarbij het beste van importeren en directe query's worden gecombineerd. Zie Direct Lake voor meer informatie.
Voorbeelddiagram van het laden van gegevens met Spark, het uitvoeren van query's met behulp van T-SQL en het weergeven van de gegevens in een Power BI-rapport.
Demonstrate understanding of common data engineering tasks to implement and manage data engineering workloads on Microsoft Azure, using a number of Azure services.