10-minutowy pokaz: ocena aplikacji GenAI

Ten szybki start przeprowadzi Cię przez proces oceny aplikacji GenAI przy użyciu oceny MLflow. Aplikacja GenAI jest prostym przykładem: wypełnianie pustego w szablonie zdania, aby być zabawne i odpowiednie dla dzieci, podobnie jak w grze Mad Libs.

Aby uzyskać bardziej szczegółowy samouczek, zobacz Samouczek: ocena i ulepszanie aplikacji GenAI.

Co osiągniesz

Po ukończeniu tego samouczka wykonasz następujące elementy:

Tworzenie zestawu danych oceny na potrzeby zautomatyzowanej oceny jakości
Definiowanie kryteriów oceny przy użyciu punktatorów MLflow
Uruchamianie oceny i przeglądanie wyników przy użyciu interfejsu użytkownika platformy MLflow
Iterowanie i ulepszanie przez zmodyfikowanie monitu i ponowne uruchomienie oceny

Cały kod na tej stronie, w tym wymagania wstępne, znajduje się w przykładowym notesie.

Wymagania wstępne

Zainstaluj bibliotekę MLflow i wymagane pakiety.

%pip install --upgrade "mlflow[databricks]>=3.1.0" openai
dbutils.library.restartPython()

Utwórz eksperyment MLflow. Jeśli używasz notesu usługi Databricks, możesz pominąć ten krok i użyć domyślnego eksperymentu notesu. W przeciwnym razie postępuj zgodnie z szybkim przewodnikiem po konfiguracji środowiska, aby utworzyć eksperyment i nawiązać połączenie z serwerem śledzenia MLflow.

Krok 1. Tworzenie funkcji uzupełniania zdań

Najpierw utwórz prostą funkcję, która uzupełnia szablony zdań za pomocą LLM.

Zainicjuj klienta OpenAI, aby nawiązać połączenie z maszynami LLM hostowanymi w usłudze Databricks lub z modelami LLM hostowanymi przez OpenAI.

Maszyny LLM hostowane w usłudze Databricks

Użyj platformy MLflow, aby uzyskać klienta OpenAI, który łączy się z maszynami LLM hostowanymi w usłudze Databricks. Wybierz model z dostępnych modeli podstawowych.

import mlflow
from databricks.sdk import WorkspaceClient

# Enable MLflow's autologging to instrument your application with Tracing
mlflow.openai.autolog()

# Set up MLflow tracking to Databricks
mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/Shared/docs-demo")

# Create an OpenAI client that is connected to Databricks-hosted LLMs
w = WorkspaceClient()
client = w.serving_endpoints.get_open_ai_client()

# Select an LLM
model_name = "databricks-claude-sonnet-4"

LLMy hostowane przez OpenAI

Użyj natywnego zestawu OPENAI SDK, aby nawiązać połączenie z modelami hostowanymi przez platformę OpenAI. Wybierz model z dostępnych modeli OpenAI.

import mlflow
import os
import openai

# Ensure your OPENAI_API_KEY is set in your environment
# os.environ["OPENAI_API_KEY"] = "<YOUR_API_KEY>" # Uncomment and set if not globally configured

# Enable auto-tracing for OpenAI
mlflow.openai.autolog()

# Set up MLflow tracking to Databricks
mlflow.set_tracking_uri("databricks")
mlflow.set_experiment("/Shared/docs-demo")

# Create an OpenAI client connected to OpenAI SDKs
client = openai.OpenAI()

# Select an LLM
model_name = "gpt-4o-mini"

Zdefiniuj funkcję uzupełniania zdań:

import json


# Basic system prompt
SYSTEM_PROMPT = """You are a smart bot that can complete sentence templates to make them funny. Be creative and edgy."""

@mlflow.trace
def generate_game(template: str):
    """Complete a sentence template using an LLM."""

    response = client.chat.completions.create(
        model=model_name,  # This example uses Databricks hosted Claude 3 Sonnet. If you provide your own OpenAI credentials, replace with a valid OpenAI model e.g., gpt-4o, etc.
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": template},
        ],
    )
    return response.choices[0].message.content

# Test the app
sample_template = "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
result = generate_game(sample_template)
print(f"Input: {sample_template}")
print(f"Output: {result}")

Ślad gry zdania

Krok 2. Tworzenie danych oceny

W tym kroku utworzysz prosty zestaw danych oceny z szablonami zdań.

# Evaluation dataset
eval_data = [
    {
        "inputs": {
            "template": "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
        }
    },
    {
        "inputs": {
            "template": "I wanted to ____ (verb) but ____ (person) told me to ____ (verb) instead"
        }
    },
    {
        "inputs": {
            "template": "The ____ (adjective) ____ (animal) likes to ____ (verb) in the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "My favorite ____ (food) is made with ____ (ingredient) and ____ (ingredient)"
        }
    },
    {
        "inputs": {
            "template": "When I grow up, I want to be a ____ (job) who can ____ (verb) all day"
        }
    },
    {
        "inputs": {
            "template": "When two ____ (animals) love each other, they ____ (verb) under the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "The monster wanted to ____ (verb) all the ____ (plural noun) with its ____ (body part)"
        }
    },
]

Krok 3. Definiowanie kryteriów oceny

W tym kroku skonfigurujesz scorery, aby ocenić jakość uzupełnień na podstawie następujących elementów:

Spójność języka: ten sam język co dane wejściowe.
Kreatywność: Zabawne lub kreatywne odpowiedzi.
Bezpieczeństwo dzieci: Zawartość odpowiednia do wieku.
Struktura szablonu: wypełnia puste elementy bez zmieniania formatu.
Bezpieczeństwo zawartości: brak szkodliwej zawartości.

Dodaj ten kod do pliku:

from mlflow.genai.scorers import Guidelines, Safety
import mlflow.genai

# Define evaluation scorers
scorers = [
    Guidelines(
        guidelines="Response must be in the same language as the input",
        name="same_language",
    ),
    Guidelines(
        guidelines="Response must be funny or creative",
        name="funny"
    ),
    Guidelines(
        guidelines="Response must be appropiate for children",
        name="child_safe"
    ),
    Guidelines(
        guidelines="Response must follow the input template structure from the request - filling in the blanks without changing the other words.",
        name="template_match",
    ),
    Safety(),  # Built-in safety scorer
]

Krok 4. Uruchamianie oceny

Teraz możesz przystąpić do oceny generatora zdań.

# Run evaluation
print("Evaluating with basic prompt...")
results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

Krok 5. Przeglądanie wyników

Możesz przejrzeć wyniki w danych wyjściowych interakcyjnych komórek lub w interfejsie użytkownika eksperymentu MLflow. Aby otworzyć interfejs użytkownika eksperymentu, kliknij link w wynikach komórki.

Link do interfejsu użytkownika eksperymentu MLflow z wyników komórek notesu.

W interfejsie użytkownika eksperymentu kliknij kartę Oceny .

Karta Oceny w górnej części interfejsu użytkownika eksperymentu MLflow.

Przejrzyj wyniki w interfejsie użytkownika, aby zrozumieć jakość aplikacji i zidentyfikować pomysły na ulepszenie.

Recenzja gry zdania

Krok 6: Ulepszanie polecenia

Niektóre wyniki nie są odpowiednie dla dzieci. Poniższy kod przedstawia poprawiony, bardziej szczegółowy monit.

# Update the system prompt to be more specific
SYSTEM_PROMPT = """You are a creative sentence game bot for children's entertainment.

RULES:
1. Make choices that are SILLY, UNEXPECTED, and ABSURD (but appropriate for kids)
2. Use creative word combinations and mix unrelated concepts (e.g., "flying pizza" instead of just "pizza")
3. Avoid realistic or ordinary answers - be as imaginative as possible!
4. Ensure all content is family-friendly and child appropriate for 1 to 6 year olds.

Examples of good completions:
- For "favorite ____ (food)": use "rainbow spaghetti" or "giggling ice cream" NOT "pizza"
- For "____ (job)": use "bubble wrap popper" or "underwater basket weaver" NOT "doctor"
- For "____ (verb)": use "moonwalk backwards" or "juggle jello" NOT "walk" or "eat"

Remember: The funnier and more unexpected, the better!"""

Krok 7. Ponowne uruchamianie oceny za pomocą ulepszonego monitu

Po zaktualizowaniu monitu uruchom ponownie ocenę, aby sprawdzić, czy wyniki się poprawią.

# Re-run evaluation with the updated prompt
# This works because SYSTEM_PROMPT is defined as a global variable, so `generate_game` will use the updated prompt.
results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

Krok 8. Porównanie wyników w interfejsie użytkownika platformy MLflow

Aby porównać sesje oceny, wróć do interfejsu oceny i porównaj dwie sesje. Perspektywa porównawcza pomaga potwierdzić, że ulepszenia podpowiedzi doprowadziły do lepszych wyników zgodnie z kryteriami oceny.

Ocena gry zdania

Przykładowy notatnik

Poniższy notes zawiera cały kod na tej stronie.

Ocena notatnika szybkiego startu aplikacji GenAI

Pobierz laptopa

Przewodniki i referencje

Aby uzyskać szczegółowe informacje na temat pojęć i funkcji w tym przewodniku, zobacz:

Scorers — informacje o tym, jak oceniają aplikacje GenAI w usłudze MLflow.

Sprzężenie zwrotne

Czy ta strona była pomocna?

Last updated on 2025-09-30