Het Microsoft Fabric Lakehouse verkennen

Voltooid

Een lakehouse presenteert zich als een database en is gebouwd op basis van een data lake met behulp van Delta-indelingstabellen. Lakehouses combineren de op SQL gebaseerde analytische mogelijkheden van een relationeel datawarehouse en de flexibiliteit en schaalbaarheid van een data lake. Lakehouses slaan alle gegevensindelingen op en kunnen worden gebruikt met verschillende analysehulpprogramma's en programmeertalen. Als cloudoplossingen kunnen lakehouses automatisch worden geschaald en kunnen ze hoge beschikbaarheid en herstel na noodgevallen bieden.

Diagram van een lakehouse, met de mapstructuur van een data lake en de relationele mogelijkheden van een datawarehouse.

Enkele voordelen van een lakehouse zijn:

  • Lakehouses gebruiken Spark- en SQL-engines om grootschalige gegevens te verwerken en machine learning- of voorspellende modelleringsanalyses te ondersteunen.
  • Lakehouse-gegevens zijn ingedeeld in een schema-on-read-indeling, wat betekent dat u het schema zo nodig definieert in plaats van een vooraf gedefinieerd schema te hebben.
  • Lakehouses bieden ondersteuning voor ACID-transacties (atomiciteit, consistentie, isolatie, duurzaamheid) via tabellen met Delta Lake-indeling voor gegevensconsistentie en -integriteit.
  • Lakehouses zijn één locatie voor data engineers, gegevenswetenschappers en gegevensanalisten voor toegang tot en gebruik van gegevens.

Een lakehouse is een uitstekende optie als u een schaalbare analyseoplossing wilt die gegevensconsistentie behoudt. Het is belangrijk om uw specifieke vereisten te evalueren om te bepalen welke oplossing het beste past.

Gegevens laden in een lakehouse

Fabric Lakehouses zijn een centraal element voor uw analyseoplossing. U kunt het ETL-proces (extraheren, transformeren, laden) volgen om gegevens op te nemen en te transformeren voordat u naar het lakehouse laadt.

U kunt gegevens opnemen in veel algemene indelingen uit verschillende bronnen, waaronder lokale bestanden, databases of API's. U kunt ook Fabric-snelkoppelingen maken naar gegevens in externe bronnen, zoals Azure Data Lake Store Gen2 of OneLake. Gebruik De Lakehouse-verkenner om door bestanden, mappen, snelkoppelingen en tabellen te bladeren en hun inhoud in het Fabric-platform weer te geven.

Opgenomen gegevens kunnen worden getransformeerd en vervolgens geladen met Apache Spark met notebooks of Dataflows Gen2. Gebruik Data Factory-pijplijnen om uw verschillende ETL-activiteiten te organiseren en de voorbereide gegevens in uw lakehouse te landen.

Notitie

Gegevensstromen Gen2 zijn gebaseerd op Power Query: een vertrouwd hulpprogramma voor gegevensanalisten met Excel of Power BI die een visuele weergave van transformaties bieden als alternatief voor traditionele programmering.

U kunt uw lakehouse om verschillende redenen gebruiken, waaronder:

  • Analyseren met behulp van SQL.
  • Machine Learning-modellen trainen.
  • Voer analyses uit op realtimegegevens.
  • Rapporten ontwikkelen in Power BI.

Een lakehouse beveiligen

Lakehouse-toegang wordt beheerd via de werkruimte of delen op itemniveau. Werkruimterollen moeten worden gebruikt voor samenwerkers, omdat deze rollen toegang verlenen tot alle items in de werkruimte. Delen op itemniveau wordt het beste gebruikt voor het verlenen van toegang voor alleen-lezenbehoeften, zoals analyses of het ontwikkelen van Power BI-rapporten.

Fabric Lakehouses bieden ook ondersteuning voor functies voor gegevensbeheer, waaronder vertrouwelijkheidslabels, en kunnen worden uitgebreid met Behulp van Microsoft Purview met uw Fabric-tenant.

Notitie

Zie de documentatie over beveiliging in Microsoft Fabric voor meer informatie.