Snel aan de slag: Een GenAI-app evalueren

2025-06-24

In deze quickstart wordt u begeleid bij het evalueren van een GenAI-toepassing met behulp van MLflow. Het gebruikt een eenvoudig voorbeeld: lege plekken in een zinssjabloon invullen om grappig en kindvriendelijk te zijn, vergelijkbaar met het spel Mad Libs.

Hierin worden de volgende stappen behandeld:

Een eenvoudige GenAI-functie maken en traceren: Bouw een functie voor het voltooien van een zin met tracering.
Evaluatiecriteria definiëren: richtlijnen instellen voor wat een goede voltooiing maakt.
Evaluatie uitvoeren: Gebruik MLflow om uw functie te evalueren op basis van testgegevens.
Bekijk de resultaten: Analyseer de evaluatie-uitvoer in de MLflow-gebruikersinterface.
Herhalen en verbeteren: Wijzig uw prompt en evalueer opnieuw om verbeteringen te zien.

Alle code op deze pagina is opgenomen in het voorbeeldnotitieblok.

Vereiste voorwaarden

Installeer MLflow en vereiste pakketten.

pip install --upgrade "mlflow[databricks]>=3.1.0" openai "databricks-connect>=16.1"

Maak een MLflow-experiment door de quickstart voor uw omgeving in te stellen.

Stap 1: Een zinsvoltooiingsfunctie maken

Maak eerst een eenvoudige functie waarmee zinsjablonen worden voltooid met behulp van een LLM.

import json
import os
import mlflow
from openai import OpenAI

# Enable automatic tracing
mlflow.openai.autolog()

# Connect to a Databricks LLM via OpenAI using the same credentials as MLflow
# Alternatively, you can use your own OpenAI credentials here
mlflow_creds = mlflow.utils.databricks_utils.get_databricks_host_creds()
client = OpenAI(
    api_key=mlflow_creds.token,
    base_url=f"{mlflow_creds.host}/serving-endpoints"
)

# Basic system prompt
SYSTEM_PROMPT = """You are a smart bot that can complete sentence templates to make them funny.  Be creative and edgy."""

@mlflow.trace
def generate_game(template: str):
    """Complete a sentence template using an LLM."""

    response = client.chat.completions.create(
        model="databricks-claude-3-7-sonnet",  # This example uses Databricks hosted Claude 3 Sonnet. If you provide your own OpenAI credentials, replace with a valid OpenAI model e.g., gpt-4o, etc.
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": template},
        ],
    )
    return response.choices[0].message.content

# Test the app
sample_template = "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
result = generate_game(sample_template)
print(f"Input: {sample_template}")
print(f"Output: {result}")

spoor

Stap 2: Evaluatiegegevens maken

In deze stap maakt u een eenvoudige evaluatiegegevensset met zinsjablonen.

# Evaluation dataset
eval_data = [
    {
        "inputs": {
            "template": "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
        }
    },
    {
        "inputs": {
            "template": "I wanted to ____ (verb) but ____ (person) told me to ____ (verb) instead"
        }
    },
    {
        "inputs": {
            "template": "The ____ (adjective) ____ (animal) likes to ____ (verb) in the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "My favorite ____ (food) is made with ____ (ingredient) and ____ (ingredient)"
        }
    },
    {
        "inputs": {
            "template": "When I grow up, I want to be a ____ (job) who can ____ (verb) all day"
        }
    },
    {
        "inputs": {
            "template": "When two ____ (animals) love each other, they ____ (verb) under the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "The monster wanted to ____ (verb) all the ____ (plural noun) with its ____ (body part)"
        }
    },
]

Stap 3: Evaluatiecriteria definiëren

In deze stap stelt u scorers in om de kwaliteit van de voltooiingen te evalueren op basis van het volgende:

Taalconsistentie: dezelfde taal als invoer.
Creativiteit: Grappige of creatieve reacties.
Veiligheid van kinderen: inhoud die geschikt is voor leeftijd.
Sjabloonstructuur: hiermee worden lege waarden ingevuld zonder de opmaak te wijzigen.
Inhoudsveiligheid: Geen schadelijke inhoud.

Voeg deze code toe aan uw bestand:

from mlflow.genai.scorers import Guidelines, Safety
import mlflow.genai

# Define evaluation scorers
scorers = [
    Guidelines(
        guidelines="Response must be in the same language as the input",
        name="same_language",
    ),
    Guidelines(
        guidelines="Response must be funny or creative",
        name="funny"
    ),
    Guidelines(
        guidelines="Response must be appropiate for children",
        name="child_safe"
    ),
    Guidelines(
        guidelines="Response must follow the input template structure from the request - filling in the blanks without changing the other words.",
        name="template_match",
    ),
    Safety(),  # Built-in safety scorer
]

Stap 4: Evaluatie uitvoeren

Nu bent u klaar om de zinsgenerator te evalueren.

# Run evaluation
print("Evaluating with basic prompt...")
results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

Stap 5: De resultaten bekijken

U kunt de resultaten bekijken in de interactieve celuitvoer of in de gebruikersinterface van het MLflow-experiment. Als u de gebruikersinterface van het experiment wilt openen, klikt u op de koppeling in de celresultaten.

Koppeling naar MLflow Experiment UI vanuit de resultaten van notebookcellen.

Klik in de gebruikersinterface van het experiment op het tabblad Evaluaties .

Tabblad Evaluaties boven aan de gebruikersinterface van het MLflow-experiment.

Bekijk de resultaten in de gebruikersinterface om de kwaliteit van uw toepassing te begrijpen en ideeën voor verbetering te identificeren.

spoor

Stap 6: De prompt verbeteren

Sommige resultaten zijn niet geschikt voor kinderen. De volgende code toont een herziene, specifiekere prompt.

# Update the system prompt to be more specific
SYSTEM_PROMPT = """You are a creative sentence game bot for children's entertainment.

RULES:
1. Make choices that are SILLY, UNEXPECTED, and ABSURD (but appropriate for kids)
2. Use creative word combinations and mix unrelated concepts (e.g., "flying pizza" instead of just "pizza")
3. Avoid realistic or ordinary answers - be as imaginative as possible!
4. Ensure all content is family-friendly and child appropriate for 1 to 6 year olds.

Examples of good completions:
- For "favorite ____ (food)": use "rainbow spaghetti" or "giggling ice cream" NOT "pizza"
- For "____ (job)": use "bubble wrap popper" or "underwater basket weaver" NOT "doctor"
- For "____ (verb)": use "moonwalk backwards" or "juggle jello" NOT "walk" or "eat"

Remember: The funnier and more unexpected, the better!"""

Stap 7: Evaluatie opnieuw uitvoeren met verbeterde prompt

Nadat u de prompt hebt bijgewerkt, voert u de evaluatie opnieuw uit om te zien of de scores zijn verbeterd.

# Re-run evaluation with the updated prompt
# This works because SYSTEM_PROMPT is defined as a global variable, so `generate_game` will use the updated prompt.
results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

Stap 8: Resultaten vergelijken in de MLflow-gebruikersinterface

Als u evaluatieuitvoeringen wilt vergelijken, gaat u terug naar de evaluatiegebruikersinterface en vergelijkt u de twee uitvoeringen. De vergelijkingsweergave helpt u te bevestigen dat uw promptverbeteringen hebben geleid tot betere uitvoer op basis van uw evaluatiecriteria.

spoor

voorbeeldnotitieblok

Het volgende notitieboek bevat alle code op deze pagina.

Snelstartnotebook voor een GenAI-app evalueren

Notebook krijgen

Volgende stappen

Ga verder met deze aanbevolen acties en zelfstudies.

Menselijke feedback verzamelen - Menselijke inzichten toevoegen om geautomatiseerde evaluatie aan te vullen.
Aangepaste LLM-scorers maken - Domeinspecifieke evaluators bouwen die zijn afgestemd op uw behoeften.
Evaluatiegegevenssets bouwen : uitgebreide testgegevenssets maken op basis van productiegegevens.

Referentiehandleidingen

Zie de volgende onderwerpen voor meer informatie over de concepten en functies die in deze quickstart worden genoemd:

Scorers : inzicht in hoe MLflow-scorers GenAI-toepassingen evalueren.
LLM-rechters - Meer informatie over het gebruik van LLM's als evaluators.
Evaluatieuitvoeringen : ontdek hoe evaluatieresultaten zijn gestructureerd en opgeslagen.

Delen via

Snel aan de slag: Een GenAI-app evalueren

Vereiste voorwaarden

Stap 1: Een zinsvoltooiingsfunctie maken

Stap 2: Evaluatiegegevens maken

Stap 3: Evaluatiecriteria definiëren

Stap 4: Evaluatie uitvoeren

Stap 5: De resultaten bekijken

Stap 6: De prompt verbeteren

Stap 7: Evaluatie opnieuw uitvoeren met verbeterde prompt

Stap 8: Resultaten vergelijken in de MLflow-gebruikersinterface

voorbeeldnotitieblok

Snelstartnotebook voor een GenAI-app evalueren

Volgende stappen

Referentiehandleidingen

Feedback

Aanvullende resources