Microsoft Fabric Lakehouse verkennen

Voltooid

Een Lakehouse presenteert zich als een database en is gebouwd op basis van een data lake met behulp van Delta-indelingstabellen. Lakehouses combineren de op SQL gebaseerde analytische mogelijkheden van een relationeel datawarehouse en de flexibiliteit en schaalbaarheid van een data lake. Lakehouses slaan alle gegevensindelingen op en kunnen worden gebruikt met verschillende analysehulpprogramma's en programmeertalen. Als cloudoplossingen kunnen lakehouses automatisch worden geschaald en kunnen ze hoge beschikbaarheid en herstel na noodgevallen bieden.

Diagram van een lakehouse, met de mapstructuur van een data lake en de relationele mogelijkheden van een datawarehouse.

Enkele voordelen van een lakehouse zijn:

  • Lakehouses gebruiken Spark- en SQL-engines om grootschalige gegevens te verwerken en machine learning- of voorspellende modelleringsanalyses te ondersteunen.
  • Lakehouse-gegevens zijn ingedeeld in een schema-on-read-indeling, wat betekent dat u het schema zo nodig definieert in plaats van een vooraf gedefinieerd schema te hebben.
  • Lakehouses bieden ondersteuning voor ACID-transacties (atomiciteit, consistentie, isolatie, duurzaamheid) via tabellen met Delta Lake-indeling voor gegevensconsistentie en -integriteit.
  • Lakehouses zijn één locatie voor data engineers, gegevenswetenschappers en gegevensanalisten voor toegang tot en gebruik van gegevens.

Een Lakehouse is een uitstekende optie als u een schaalbare analyseoplossing wilt die gegevensconsistentie behoudt. Het is belangrijk om uw specifieke vereisten te evalueren om te bepalen welke oplossing het beste past.

Microsoft Fabric Lakehouses

In Microsoft Fabric kunt u een lakehouse maken in elke werkruimte in de Premium-laag . Nadat u een lakehouse hebt gemaakt, kunt u gegevens laden ( in elke gemeenschappelijke indeling ) uit verschillende bronnen; inclusief lokale bestanden, databases of API's. Gegevensopname kan ook worden geautomatiseerd met behulp van Data Factory-pijplijnen of gegevensstromen (Gen2) in Microsoft Fabric. Daarnaast kunt u Fabric-snelkoppelingen maken naar gegevens in externe bronnen, zoals Azure Data Lake Store Gen2 of een Microsoft OneLake-locatie buiten de eigen opslag van lakehouse. Met Lakehouse Explorer kunt u door bestanden, mappen, snelkoppelingen en tabellen bladeren; en bekijk de inhoud ervan in het Fabric-platform.

Nadat u de gegevens hebt opgenomen in Lakehouse, kunt u Notebooks of Gegevensstromen (Gen2) gebruiken om deze te verkennen en transformeren.

Notitie

Gegevensstromen (Gen2) zijn gebaseerd op Power Query: een vertrouwd hulpprogramma voor gegevensanalisten met Excel of Power BI die een visuele weergave van transformaties bieden als alternatief voor traditionele programmering.

Data Factory-pijplijnen kunnen worden gebruikt voor het organiseren van Spark, Gegevensstroom en andere activiteiten; zodat u complexe processen voor gegevenstransformatie kunt implementeren.

Nadat u uw gegevens hebt getransformeerd, kunt u er query's op uitvoeren met behulp van SQL, machine learning-modellen trainen, realtime intelligentie uitvoeren of rapporten ontwikkelen in Power BI.

U kunt ook beleid voor gegevensbeheer toepassen op uw Lakehouse, zoals gegevensclassificatie en toegangsbeheer.