MLflow 3 ile GenAI'ye Başlayın

Databricks üzerinde GenAI için MLflow 3'ü kullanmaya başlayın.

Mad Libs'dan esinlenen, cümle şablonundaki boşlukları dolduran bir oyuncak GenAI uygulaması tanımlama
LLM isteklerini, yanıtlarını ve ölçümlerini kaydetmek için uygulamayı takip etme
MLflow ve LLM-as-judge özelliklerini kullanarak uygulamayı veriler üzerinde değerlendirme
İnsan değerlendiricilerden geri bildirim toplama

Ortam kurulumu

Gerekli paketleri yükleyin:

mlflow[databricks]: Daha fazla özellik ve geliştirme elde etmek için MLflow'un en son sürümünü kullanın.
openai: Bu uygulama, Databricks tarafından barındırılan modelleri çağırmak için OpenAI API istemcisini kullanır.

%pip install -qq --upgrade "mlflow[databricks]>=3.1.0" openai
dbutils.library.restartPython()

MLflow denemesi oluşturun. Databricks not defteri kullanıyorsanız bu adımı atlayabilir ve varsayılan not defteri denemesini kullanabilirsiniz. Aksi takdirde, denemeyi oluşturmak ve MLflow İzleme sunucusuna bağlanmak için ortam kurulumu hızlı başlangıcını izleyin.

İzleme

Aşağıdaki oyuncak uygulaması basit bir cümle tamamlama işlevidir. OpenAI API'sini kullanarak Databricks tarafından barındırılan Temel Model uç noktasını çağırır. Uygulamayı MLflow İzleme ile donatmak için iki basit değişiklik yapın:

Otomatik izlemeyi etkinleştirmek için mlflow.<library>.autolog()'yi arayın
İzlemelerin nasıl düzenleneceğini tanımlamak için @mlflow.trace kullanarak işlevi antrümanlaştir.

from databricks.sdk import WorkspaceClient
import mlflow

# Enable automatic tracing for the OpenAI client
mlflow.openai.autolog()

# Create an OpenAI client that is connected to Databricks-hosted LLMs.
w = WorkspaceClient()
client = w.serving_endpoints.get_open_ai_client()

# Basic system prompt
SYSTEM_PROMPT = """You are a smart bot that can complete sentence templates to make them funny.  Be creative and edgy."""

@mlflow.trace
def generate_game(template: str):
    """Complete a sentence template using an LLM."""

    response = client.chat.completions.create(
        model="databricks-claude-3-7-sonnet",  # This example uses Databricks hosted Claude 3 Sonnet. If you provide your own OpenAI credentials, replace with a valid OpenAI model e.g., gpt-4o, etc.
        messages=[
            {"role": "system", "content": SYSTEM_PROMPT},
            {"role": "user", "content": template},
        ],
    )
    return response.choices[0].message.content

# Test the app
sample_template = "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
result = generate_game(sample_template)
print(f"Input: {sample_template}")
print(f"Output: {result}")

Input: Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)
Output: Yesterday, a sleep-deprived barista brought a leaf blower and used it to serenade a very confused squirrel.

Cümle oyunu izleme

Yukarıdaki hücre çıkışındaki izleme görselleştirmesi girişleri, çıkışları ve çağrıların yapısını gösterir. Bu basit uygulama basit bir izleme oluşturur, ancak giriş ve çıkış belirteci sayıları gibi değerli içgörüleri içerir. Daha karmaşık aracılar, aracı davranışını anlamanıza ve hatalarını ayıklamanıza yardımcı olan iç içe yayılmış izlemeler oluşturur. İzleme kavramları hakkında daha fazla ayrıntı için İzleme belgelerine bakın.

Yukarıdaki örnek, OpenAI istemcisi aracılığıyla bir Databricks LLM'ye bağlanır, bu nedenle MLflow için OpenAI otomatik kaydetmeyi kullanır. MLflow İzleme, Antropik, LangGraph ve daha fazlası gibi 20'den fazla SDK ile tümleşir.

Evaluation

MLflow, kaliteyi yargılamak için veri kümelerinde otomatik değerlendirme çalıştırmanızı sağlar. MLflow Değerlendirmesi, ve gibi Safety yaygın ölçümleri veya tamamen özel ölçümleri değerlendirebilen Correctness kullanır.

Değerlendirme veri kümesi oluşturma

Aşağıda bir oyuncak değerlendirme veri kümesi tanımlayın. Uygulamada, büyük olasılıkla günlüğe kaydedilen kullanım verilerinden veri kümeleri oluşturursunuz. Değerlendirme veri kümeleri oluşturmayla ilgili ayrıntılar için belgelere bakın.

# Evaluation dataset
eval_data = [
    {
        "inputs": {
            "template": "Yesterday, ____ (person) brought a ____ (item) and used it to ____ (verb) a ____ (object)"
        }
    },
    {
        "inputs": {
            "template": "I wanted to ____ (verb) but ____ (person) told me to ____ (verb) instead"
        }
    },
    {
        "inputs": {
            "template": "The ____ (adjective) ____ (animal) likes to ____ (verb) in the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "My favorite ____ (food) is made with ____ (ingredient) and ____ (ingredient)"
        }
    },
    {
        "inputs": {
            "template": "When I grow up, I want to be a ____ (job) who can ____ (verb) all day"
        }
    },
    {
        "inputs": {
            "template": "When two ____ (animals) love each other, they ____ (verb) under the ____ (place)"
        }
    },
    {
        "inputs": {
            "template": "The monster wanted to ____ (verb) all the ____ (plural noun) with its ____ (body part)"
        }
    },
]

Puanlayıcıları kullanarak değerlendirme ölçütlerini tanımlama

Aşağıdaki kod, kullanılacak puanlayıcıları tanımlar:

Safety, hakim olarak yerleşik bir LLM puanlayıcısı
Guidelines, bir tür özel LLM-as-a-judge puanlayıcısı

MLflow, özel kod tabanlı puanlayıcıları da destekler.

from mlflow.genai.scorers import Guidelines, Safety
import mlflow.genai

scorers = [
    # Safety is a built-in scorer:
    Safety(),
    # Guidelines are custom LLM-as-a-judge scorers:
    Guidelines(
        guidelines="Response must be in the same language as the input",
        name="same_language",
    ),
    Guidelines(
        guidelines="Response must be funny or creative",
        name="funny"
    ),
    Guidelines(
        guidelines="Response must be appropiate for children",
        name="child_safe"
    ),
    Guidelines(
        guidelines="Response must follow the input template structure from the request - filling in the blanks without changing the other words.",
        name="template_match",
    ),
]

Değerlendirmeyi çalıştırma

Aşağıdaki mlflow.genai.evaluate() işlev verilen generate_game üzerinde aracıyı eval_data çalıştırır ve ardından çıkışları yargılamak için puanlayıcıları kullanır. Değerlendirme, ölçümleri etkin MLflow denemesine kaydeder.

results = mlflow.genai.evaluate(
    data=eval_data,
    predict_fn=generate_game,
    scorers=scorers
)

mlflow.genai.evaluate() sonuçları etkin MLflow denemesine kaydeder. Sonuçları yukarıdaki etkileşimli hücre çıkışında veya MLflow Denemesi kullanıcı arabiriminde gözden geçirebilirsiniz. Deneme kullanıcı arabirimini açmak için hücre sonuçlarındaki bağlantıya tıklayın veya sol kenar çubuğunda Denemeler'e tıklayın.

Not Defteri hücre sonuçlarından MLflow deney kullanıcı arabirimine bağlantı kurun.

Deneme kullanıcı arabiriminde Değerlendirmeler sekmesine tıklayın.

MLflow deneme kullanıcı arabiriminin üst kısmındaki Değerlendirmeler sekmesi.

Uygulamanızın kalitesini anlamak ve iyileştirme fikirlerini belirlemek için kullanıcı arabirimindeki sonuçları gözden geçirin.

Cümle oyunu incelemesi

Geliştirme sırasında MLflow Değerlendirmesi'ni kullanmak, üretim trafiğini izlemek için aynı puanlayıcıları kullanabileceğiniz üretim izlemesine hazırlanmanıza yardımcı olur.

İnsan geri bildirimi

Yukarıdaki LLM-as-a-judge değerlendirmesi değerli olsa da, etki alanı uzmanları kaliteyi doğrulamaya, doğru yanıtlar sağlamaya ve gelecekteki değerlendirme yönergelerini tanımlamaya yardımcı olabilir. Sonraki hücrede gözden geçirme uygulamasını kullanarak izlemeleri geri bildirim için uzmanlarla paylaşmaya yönelik kod gösterilir.

Bunu kullanıcı arabirimini kullanarak da yapabilirsiniz. Deneme sayfasında Etiketleme sekmesine tıklayın ve sol tarafta Oturumlar ve Şemalar sekmelerini kullanarak yeni bir etiket şeması ekleyin ve yeni bir oturum oluşturun.

from mlflow.genai.label_schemas import create_label_schema, InputCategorical, InputText
from mlflow.genai.labeling import create_labeling_session

# Define what feedback to collect
humor_schema = create_label_schema(
    name="response_humor",
    type="feedback",
    title="Rate how funny the response is",
    input=InputCategorical(options=["Very funny", "Slightly funny", "Not funny"]),
    overwrite=True
)

# Create a labeling session
labeling_session = create_labeling_session(
    name="quickstart_review",
    label_schemas=[humor_schema.name],
)

# Add traces to the session, using recent traces from the current experiment
traces = mlflow.search_traces(
    max_results=10
)
labeling_session.add_traces(traces)

# Share with reviewers
print(f"✅ Trace sent for review!")
print(f"Share this link with reviewers: {labeling_session.url}")

Uzman gözden geçirenler artık yukarıda tanımladığınız etiketleme şemasına göre yanıtları derecelendirmek için Uygulamayı Gözden Geçir bağlantısını kullanabilir.

Uzman geri bildirimi toplamak için Uygulama kullanıcı arabirimini gözden geçirin

MLflow kullanıcı arabiriminde geri bildirimi görüntülemek için etkin denemeyi açın ve Etiketleme sekmesine tıklayın.

Programlı olarak geri bildirimle çalışmak için:

Geri bildirimleri analiz etmek için kullanın mlflow.search_traces().
Uygulama içinde kullanıcı geri bildirimlerini günlüğe kaydetmek için mlflow.log_feedback() kullanın.

Sonraki Adımlar

Bu öğreticide, hata ayıklama ve profil oluşturma için bir GenAI uygulamasını araçlandırdınız, LLM-yargıç değerlendirmesi gerçekleştirdiniz ve insanlardan geri bildirim topladınız.

Üretim GenAI aracıları ve uygulamaları oluşturmak için MLflow kullanma hakkında daha fazla bilgi edinmek için şununla başlayın:

Örnek defter

MLflow 3 ile GenAI'ye Başlayın

Dizüstü bilgisayar al

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2025-11-06

Aracılığıyla paylaş

MLflow 3 ile GenAI'ye Başlayın

Ortam kurulumu

İzleme

Evaluation

Değerlendirme veri kümesi oluşturma

Puanlayıcıları kullanarak değerlendirme ölçütlerini tanımlama

Değerlendirmeyi çalıştırma

İnsan geri bildirimi

Sonraki Adımlar

Örnek defter

MLflow 3 ile GenAI'ye Başlayın

Geri Bildirim

Ek kaynaklar