Delen via


Functie-engineering en -bediening

Op deze pagina worden functie-engineering- en servicemogelijkheden beschreven voor werkruimten die zijn ingeschakeld voor Unity Catalog. Als uw werkruimte niet is ingeschakeld voor Unity Catalog, raadpleegt u de werkruimtefunctieopslag (verouderd).

Waarom Databricks gebruiken als uw functiearchief?

Met het Databricks Data Intelligence Platform vindt de volledige werkstroom voor modeltraining plaats op één platform:

  • Gegevenspijplijnen die onbewerkte gegevens opnemen, functietabellen maken, modellen trainen en batchdeductie uitvoeren. Wanneer u een model traint en aanmeldt met behulp van functie-engineering in Unity Catalog, wordt het model verpakt met functiemetagegevens. Wanneer u het model gebruikt voor batchgewijs scoren of onlinedeductie, worden functiewaarden automatisch opgehaald. De beller hoeft deze niet te kennen of logica op te nemen om functies op te zoeken of eraan deel te nemen om nieuwe gegevens te scoren.
  • Model en functie voor eindpunten die beschikbaar zijn met één klik en die milliseconden van latentie bieden.
  • Bewaking van gegevens en modellen.

Daarnaast biedt het platform het volgende:

  • Functiedetectie. U kunt bladeren en zoeken naar functies in de Databricks-gebruikersinterface.
  • Governance. Functietabellen, functies en modellen worden allemaal beheerd door Unity Catalog. Wanneer u een model traint, neemt het machtigingen over van de gegevens waarop het is getraind.
  • Afstamming. Wanneer u een functietabel maakt in Azure Databricks, worden de gegevensbronnen die worden gebruikt om de functietabel te maken, opgeslagen en toegankelijk. Voor elke functie in een functietabel hebt u ook toegang tot de modellen, notebooks, taken en eindpunten die gebruikmaken van de functie.
  • Toegang tussen werkruimten. Functietabellen, functies en modellen zijn automatisch beschikbaar in elke werkruimte die toegang heeft tot de catalogus.

Vereisten

  • Uw werkruimte moet zijn ingeschakeld voor Unity Catalog.
  • Voor functie-engineering in Unity Catalog is Databricks Runtime 13.3 LTS of hoger vereist.

Als uw werkruimte niet aan deze vereisten voldoet, raadpleegt u werkruimtefunctiearchief (verouderd) voor het gebruik van het werkruimtefunctiearchief.

Hoe werkt functie-engineering in Databricks?

De typische machine learning-werkstroom met behulp van functie-engineering in Databricks volgt dit pad:

  1. Schrijf code om onbewerkte gegevens te converteren naar functies en maak een Spark DataFrame met de gewenste functies.
  2. Maak een Delta-tabel in Unity Catalog. Elke Delta-tabel met een primaire sleutel is automatisch een functietabel.
  3. Train en registreer een model met behulp van de functietabel. Wanneer u dit doet, slaat het model de specificaties op van functies die worden gebruikt voor training. Wanneer het model wordt gebruikt voor deductie, worden functies uit de juiste functietabellen automatisch samengevoegd.
  4. Model registreren in modelregister.

U kunt nu het model gebruiken om voorspellingen te doen over nieuwe gegevens. Voor batchgebruiksscenario's haalt het model automatisch de functies op die het nodig heeft uit de Feature Store.

Feature Store-werkstroom voor batch-machine learning-use cases.

Voor realtime gebruiksvoorbeelden publiceert u de functies naar een onlinetabel. Online winkels van derden worden ook ondersteund. Zie online winkels van derden.

Tijdens deductie leest het model vooraf berekende functies uit de online winkel en voegt het deze samen met de gegevens die zijn opgegeven in de clientaanvraag naar het model dat het eindpunt levert.

Functiearchiefstroom voor machine learning-modellen die worden geleverd.

Functie-engineering gaan gebruiken , voorbeeldnotitieblokken

Probeer deze voorbeeldnotitieblokken om aan de slag te gaan. Het basisnotitieblok begeleidt u bij het maken van een functietabel, het gebruiken om een model te trainen en vervolgens batchgewijs scoren uit te voeren met behulp van automatisch zoeken naar functies. Daarnaast maakt u kennis met de gebruikersinterface van Feature Engineering en leert u hoe u deze kunt gebruiken om functies te zoeken en te begrijpen hoe functies worden gemaakt en gebruikt.

Basic Feature Engineering in Unity Catalog-voorbeeldnotitieblok

Notebook downloaden

Het voorbeeldnotitieblok voor taxi's illustreert het proces van het maken van functies, het bijwerken ervan en het gebruik ervan voor modeltraining en batchdeductie.

Voorbeeldnotitieblok voor functie-engineering in Unity Catalog

Notebook downloaden

Ondersteunde gegevenstypen

Functie-engineering in Unity Catalog en werkruimte-functieopslag ondersteunt de volgende PySpark-gegevenstypen:

  • IntegerType
  • FloatType
  • BooleanType
  • StringType
  • DoubleType
  • LongType
  • TimestampType
  • DateType
  • ShortType
  • ArrayType
  • BinaryType [1]
  • DecimalType [1]
  • MapType [1]
  • StructType [2]

[1] BinaryType, DecimalTypeen MapType worden ondersteund in alle versies van Feature Engineering in Unity Catalog en in Workspace Feature Store v0.3.5 of hoger. [2] StructType wordt ondersteund in Feature Engineering v0.6.0 of hoger.

De bovenstaande gegevenstypen ondersteunen functietypen die gebruikelijk zijn in machine learning-toepassingen. Voorbeeld:

  • U kunt dichte vectoren, tensors en insluitingen opslaan als ArrayType.
  • U kunt sparse vectoren, tensors en insluitingen opslaan als MapType.
  • U kunt tekst opslaan als StringType.

Wanneer ze worden gepubliceerd naar online winkels ArrayType en MapType functies worden opgeslagen in JSON-indeling.

In de gebruikersinterface van het functiearchief worden metagegevens weergegeven voor functiegegevenstypen:

Voorbeeld van complexe gegevenstypen

Meer informatie

Download de uitgebreide handleiding voor feature stores voor meer informatie over aanbevolen procedures.