Delen via


Inleiding tot Databricks Lakehouse Monitoring

In dit artikel wordt Databricks Lakehouse Monitoring beschreven. Het behandelt de voordelen van het bewaken van uw gegevens en geeft een overzicht van de onderdelen en het gebruik van Databricks Lakehouse Monitoring.

Met Databricks Lakehouse Monitoring kunt u de statistische eigenschappen en kwaliteit van de gegevens in alle tabellen in uw account bewaken. U kunt deze ook gebruiken om de prestaties van machine learning-modellen en modelverdienende eindpunten bij te houden door deductietabellen te bewaken die modelinvoer en voorspellingen bevatten. In het diagram ziet u de gegevensstroom via gegevens- en ML-pijplijnen in Databricks en hoe u bewaking kunt gebruiken om continu gegevenskwaliteit en modelprestaties bij te houden.

Overzicht van Databricks Lakehouse Monitoring

Waarom Databricks Lakehouse Monitoring gebruiken?

Als u nuttige inzichten wilt trekken uit uw gegevens, moet u vertrouwen hebben in de kwaliteit van uw gegevens. Het bewaken van uw gegevens biedt kwantitatieve metingen waarmee u de kwaliteit en consistentie van uw gegevens in de loop van de tijd kunt bijhouden en bevestigen. Wanneer u wijzigingen in de gegevensdistributie van uw tabel of de prestaties van het bijbehorende model detecteert, kunnen de tabellen die door Databricks Lakehouse Monitoring zijn gemaakt, u vastleggen en waarschuwen voor de wijziging en kunt u de oorzaak identificeren.

Databricks Lakehouse Monitoring helpt u bij het beantwoorden van vragen zoals:

  • Hoe ziet gegevensintegriteit eruit en hoe verandert deze in de loop van de tijd? Wat is bijvoorbeeld het deel van null- of nulwaarden in de huidige gegevens en is deze toegenomen?
  • Hoe ziet de statistische verdeling van de gegevens eruit en hoe verandert deze in de loop van de tijd? Wat is bijvoorbeeld het 90e percentiel van een numerieke kolom? Of, wat is de verdeling van waarden in een categorische kolom en hoe verschilt deze van gisteren?
  • Is er sprake van afwijking tussen de huidige gegevens en een bekende basislijn, of tussen opeenvolgende tijdvensters van de gegevens?
  • Hoe ziet de statistische verdeling of afwijking van een subset of segment van de gegevens eruit?
  • Hoe veranderen de invoer en voorspellingen van ML-modellen in de loop van de tijd?
  • Hoe is de trending van modelprestaties in de loop van de tijd? Presteert modelversie A beter dan versie B?

Daarnaast kunt u met Databricks Lakehouse Monitoring de tijdgranulariteit van waarnemingen beheren en aangepaste metrische gegevens instellen.

Vereisten

Het volgende is vereist voor het gebruik van Databricks Lakehouse Monitoring:

  • Uw werkruimte moet zijn ingeschakeld voor Unity Catalog en u moet toegang hebben tot Databricks SQL.
  • Alleen Delta-tabellen worden ondersteund voor bewaking en de tabel moet een van de volgende tabeltypen zijn: beheerde tabellen, externe tabellen, weergaven, gerealiseerde weergaven of streamingtabellen.
  • Monitors die zijn gemaakt via gerealiseerde weergaven en streamingtabellen bieden geen ondersteuning voor incrementele verwerking.
  • Niet alle regio's worden ondersteund. Zie de kolom Serverloze berekening voor notebooks en werkstromen in de tabelfuncties met beperkte regionale beschikbaarheid voor regionale ondersteuning.

Notitie

Databricks Lakehouse Monitoring maakt gebruik van serverloze berekeningen voor taken. Zie De kosten van Lakehouse Monitoring bekijken voor meer informatie over het bijhouden van Kosten van Lakehouse Monitoring.

Hoe Lakehouse Monitoring werkt op Databricks

Als u een tabel in Databricks wilt bewaken, maakt u een monitor die aan de tabel is gekoppeld. Als u de prestaties van een Machine Learning-model wilt bewaken, koppelt u de monitor aan een deductietabel met de invoer en bijbehorende voorspellingen van het model.

Databricks Lakehouse Monitoring biedt de volgende typen analyse: tijdreeks, momentopname en deductie.

Profieltype Beschrijving
Tijdreeks Gebruiken voor tabellen die een tijdreeksgegevensset bevatten op basis van een tijdstempelkolom. Bewaking berekent metrische gegevenskwaliteit in tijdvensters van de tijdreeks.
Deductie Gebruiken voor tabellen die het aanvraaglogboek voor een model bevatten. Elke rij is een aanvraag, met kolommen voor de tijdstempel, de modelinvoer, de bijbehorende voorspelling en (optioneel) grondwaarlabel. Bewaking vergelijkt metrische gegevens over modelprestaties en gegevenskwaliteit in tijdgebaseerde vensters van het aanvraaglogboek.
Momentopname Gebruiken voor alle andere typen tabellen. Bewaking berekent metrische gegevens van gegevenskwaliteit voor alle gegevens in de tabel. De volledige tabel wordt bij elke vernieuwing verwerkt.

In deze sectie worden de invoertabellen beschreven die worden gebruikt door Databricks Lakehouse Monitoring en de metrische tabellen die worden geproduceerd. Het diagram toont de relatie tussen de invoertabellen, de metrische tabellen, de monitor en het dashboard.

Bewakingsdiagram van Databricks Lakehouse

Primaire tabel en basislijntabel

Naast de tabel die moet worden bewaakt, de 'primaire tabel' genoemd, kunt u desgewenst een basislijntabel opgeven die moet worden gebruikt als verwijzing voor het meten van drift of de wijziging in waarden in de loop van de tijd. Een basislijntabel is handig wanneer u een voorbeeld hebt van hoe uw gegevens eruit moeten zien. Het idee is dat drift vervolgens wordt berekend ten opzichte van verwachte gegevenswaarden en distributies.

De basislijntabel moet een gegevensset bevatten die de verwachte kwaliteit van de invoergegevens weerspiegelt, wat betreft statistische distributies, afzonderlijke kolomdistributies, ontbrekende waarden en andere kenmerken. Deze moet overeenkomen met het schema van de bewaakte tabel. De uitzondering is de tijdstempelkolom voor tabellen die worden gebruikt met tijdreeks- of deductieprofielen. Als kolommen ontbreken in de primaire tabel of de basislijntabel, gebruikt bewaking heuristiek voor de best effort om de metrische uitvoergegevens te berekenen.

Voor monitors die een momentopnameprofiel gebruiken, moet de basislijntabel een momentopname bevatten van de gegevens waarin de distributie een acceptabele kwaliteitsstandaard vertegenwoordigt. Bij cijferdistributiegegevens kan bijvoorbeeld de basislijn worden ingesteld op een eerdere klasse waarin cijfers gelijkmatig zijn verdeeld.

Voor monitors die een tijdreeksprofiel gebruiken, moet de basislijntabel gegevens bevatten die tijdvensters vertegenwoordigen waarin gegevensdistributies een acceptabele kwaliteitsstandaard vertegenwoordigen. Bij weergegevens kunt u bijvoorbeeld de basislijn instellen op een week, maand of jaar waar de temperatuur bijna normaal was.

Voor monitors die gebruikmaken van een deductieprofiel, is een goede keuze voor een basislijn de gegevens die zijn gebruikt voor het trainen of valideren van het model dat wordt bewaakt. Op deze manier kunnen gebruikers worden gewaarschuwd wanneer de gegevens zijn afgelopen ten opzichte van waarop het model is getraind en gevalideerd. Deze tabel moet dezelfde functiekolommen bevatten als de primaire tabel en moet bovendien hetzelfde model_id_col hebben dat is opgegeven voor de deductielogboek van de primaire tabel, zodat de gegevens consistent worden samengevoegd. In het ideale geval moet de test- of validatieset die wordt gebruikt om het model te evalueren, worden gebruikt om vergelijkbare metrische gegevens over de kwaliteit van modellen te garanderen.

Metrische tabellen en dashboards

Met een tabelmonitor worden twee metrische tabellen en een dashboard gemaakt. Metrische waarden worden berekend voor de hele tabel en voor de tijdvensters en gegevenssubsets (of segmenten) die u opgeeft wanneer u de monitor maakt. Daarnaast worden voor deductieanalyse metrische gegevens berekend voor elke model-id. Zie Metrische tabellen bewaken voor meer informatie over de metrische tabellen.

  • De tabel met metrische profielgegevens bevat samenvattingsstatistieken. Zie het tabelschema voor metrische gegevens van het profiel.
  • De tabel met metrische driftgegevens bevat statistieken met betrekking tot de afwijking van de gegevens in de loop van de tijd. Als er een basislijntabel wordt opgegeven, wordt drift ook gecontroleerd ten opzichte van de basislijnwaarden. Zie het schema van de tabel met metrische gegevens voor drift.

De metrische tabellen zijn Delta-tabellen en worden opgeslagen in een Unity Catalog-schema dat u opgeeft. U kunt deze tabellen weergeven met behulp van de Databricks-gebruikersinterface, ze opvragen met Behulp van Databricks SQL en dashboards en waarschuwingen maken op basis van deze tabellen.

Voor elke monitor maakt Databricks automatisch een dashboard om u te helpen bij het visualiseren en presenteren van de monitorresultaten. Het dashboard kan volledig worden aangepast, net als elk ander verouderd dashboard.

Aan de slag met Lakehouse Monitoring op Databricks

Zie de volgende artikelen om aan de slag te gaan: