Ajan optimizasyonu nedir? (önizleme)

Important

Agent Optimizer şu anda önizleme sürümündedir. Bu önizleme, hizmet düzeyi sözleşmesi olmadan sağlanır ve üretim iş yükleri için önerilmez. Bazı özellikler desteklenmeyebilir veya kısıtlı özelliklere sahip olabilir. Daha fazla bilgi için bkz. Microsoft Azure Önizlemeleri için Ek Kullanım Koşulları.

Foundry Aracı Hizmeti'ndeki aracı iyileştiricisi, barındırılan aracılarınızı davranışlarını değerlendirerek ve daha iyi yapılandırmalar oluşturarak otomatik olarak geliştirir. Bu yapılandırmalar öncelikli olarak geliştirilmiş sistem yönergelerini ve bulunan becerileri içerir.

Etkili yapay zeka aracıları oluşturmak için kapsamlı hızlı mühendislik gerekir. Elle hazırlanmış talimatlarla bir aracı devreye alır, gerçek senaryolarda test eder, zayıf yönlerini belirler, istemi gözden geçirir ve bunu tekrarlarsınız. Bu döngü yavaş, özneldir ve ölçeklendirilemez. Aracı iyileştiricisi, aracınızın temel mantığına odaklanabilmeniz için bu döngüyü otomatikleştirir.

Ajan optimize edicisi nasıl çalışır?

Ajan iyileştiricisi, kapalı döngü bir değerlendirme ve iyileştirme döngüsü yürütür:

  1. Temeli değerlendirin. İyileştirici, aracınızı bir görev veri kümesine karşı çağırır ve her yanıtı tanımladığınız ölçütlere veya yerleşik bir varsayılan kümeye göre puanlar. Başlangıç değeri, ajanınızın herhangi bir değişiklikten önceki puanıdır.
  2. Adaylar oluşturun. Optimizasyon aracı, puanları iyileştirmek için tasarlanmış, yeniden yazılmış yönergeler veya keşfedilen becerilerden oluşan ve adaylar olarak adlandırılan alternatif yapılandırmalar üretir.
  3. Adayları değerlendirin. İyileştirici her adayı aynı veri kümesine göre test eder.
  4. Derecelendir ve öner. İyileştirici sonuçları, toplam performansı temsil eden 0,0 ile 1,0 arasında bir değer olan bileşik puana göre sıralar ve ile ★ en iyi adayı işaretler.
  5. Kazananı yayına alın. Tek bir komut, kazanan adayı yükselterek yapılandırmasını aracınızın ortamına kaydeder.

İşlemin tamamı bulutta çalışır. Ile azd ai agent optimize başlatın ( azd CLI uzantısını gerektirir). Çalıştırma, veri kümesi boyutuna bağlı olarak 5-20 dakika sürer.

Warning

İyileştirme sırasında iyileştirici, aracınızı veri kümenizdeki her göreve karşı çağırarak değerlendirir. Aracınız API'ler, veritabanları veya üçüncü taraf hizmetler gibi dış araçları çağırırsa, bu çağrılar her değerlendirme çalıştırması sırasında yürütülür. İstenmeyen yan etkilerden (ücretler, durum mutasyonları veya oran sınırlaması) kaçınmak için optimizasyon sırasında test uç noktalarını kullanmayı veya araç uygulamalarını taklit etmeyi göz önünde bulundurun.

Tavsiye

En iyi sonuçları elde etmek için iyileştirmeyi çalıştırmadan önce ile azd ai agent eval generate aracınıza uyarlanmış bir veri kümesi oluşturun. İyileştirici, oluşturulan eval.yamlöğesini otomatik olarak algılar. Ayrıntılar için bkz. Değerlendirme veri kümesi oluşturma.

İyileştirme hedefleri

İyileştirme hedefi , aracınızın yapılandırmasının iyileştiricinin geliştirebileceği belirli bir yönüdür. Aracı iyileştiricisi, aracınızın temel yapılandırmasına ve ayarlarına göre hangi hedeflerin eval.yaml etkinleştirileceğini otomatik olarak belirler.

Yönerge ayarlama

Optimize edici, ajanınızın sistem istemini yeniden yazar ve geliştirir. Temel performansı analiz eder ve daha yüksek puan veren istem varyasyonları oluşturur.

Etkinleştirildiğinde: Yönerge ayarlama, aracınızın temel yapılandırma dizininde bir instructions.md dosyası olduğunda çalışır. Bu en yaygın iyileştirme hedefidir ve yanıt kalitesini geliştirmek, görev gereksinimlerine uymak ve yanlış çıkışları azaltmak için iyi çalışır.

Beceri geliştirme

Optimizasyon aracı, ajanınızın kullandığı yeniden kullanılabilir becerileri geliştirir. Mevcut beceri gövdelerini (her SKILL.md dosyasındaki uygulama içeriğini) iyileştirir ve beceri açıklamalarını değiştirmeden bırakır. Ajan, bu becerileri load_config() aracılığıyla yükler ve bunları yönerge kümesine ekler.

Etkinleştirildiğinde: Beceri geliştirme, aracınızın temel yapılandırmada bir skills/ dizini olduğunda çalıştırılır. Yapılandırılmış, tekrarlanabilir davranışlara ihtiyaç duyan aracılar için becerileri kullanın. Örneğin, belirli bir yükseltme yordamını izleyen bir destek aracısı veya bütçe ilkelerini denetleyan bir seyahat aracısı.

Araç optimizasyonu

İyileştirici, model çağrı araçlarını daha doğru bir şekilde çağırmaya yardımcı olmak için araç açıklamalarını ve parametre açıklamalarını geliştirir. Parametre türlerini, varsayılanları veya gerekli alanları değiştirmez; yalnızca doğal dil açıklamaları iyileştirilir.

Etkinleştirildiğinde: Aracınızın temel yapılandırmada bir tools.json dosyası olduğunda araç iyileştirmesi çalıştırılır. İyileştirici, hangi araç çağrılarının başarılı veya başarısız olduğunu analiz eder ve daha net açıklamalar ve parametre açıklamaları oluşturur.

Model seçimi

İyileştirici, en iyi kalite-maliyet dengesini bulmak için ajanınızı tek bir çalıştırmada birden çok model dağıtımında değerlendirir. Örneğin, iş yükünüzü daha düşük maliyetle işleyip işlemediğini gpt-4.1-mini veya ek belirteç maliyetini haklı gösteren bir kalite iyileştirmesi sağlayıp sağlamadığını gpt-4.1 belirleyebilir.

Ne zaman etkinleşir: Model seçimi, değerlendirilecek model dağıtımlarının listesini optimization_config.model_search_space öğenize eval.yaml eklediğinizde çalışır. İyileştirici, her model seçeneğini aynı veri kümesine puanlar ve dengeleri gösterir.

Note

Model listesi aracınızın geçerli model dağıtımını içeriyorsa, adaylardan otomatik olarak kaldırılır (taban çizgisi bu modeli zaten temsil eder). Bu kaldırmadan sonra hiçbir model kalmazsa doğrulama hatası alırsınız.

eval.yaml içinde model adaylarını yapılandırın:

# eval.yaml
options:
  optimization_config:
    model_search_space:
      - gpt-4.1
      - gpt-4.1-mini
      - gpt-4o

Aynı çalıştırmada model seçimini yönerge ve beceri iyileştirme ile birleştirebilirsiniz. İyileştirici, temel yapılandırmanıza ve ayarlarınıza göre hangi hedeflerin optimization_config geliştirileceğini otomatik olarak belirler.

Yapılandırma çözümlemesi

Ajanınız başlatıldığında, load_config() işlevi birkaç kaynağı şu sırayla denetler: aday değerlendirmesi sırasında satır içi JSON'u, alınan bir aday için çözümleyici API'sini, bir adayı uyguladıktan sonra yerel .agent_configs/ dizinini ve son olarak, hiçbir yapılandırma kaynağı yoksa None'yi.

Aracınız, optimizasyon olsun ya da olmasın, her zaman çalışır. Özellik bayraklarına veya koşullu mantığa ihtiyacınız yoktur. Çağırın load_config() ve döndürdüğü değerleri kullanın. Tam çözümleme sırası ve uygulama ayrıntıları için bkz. Aracınızı optimize ediciye hazır hale getirin.

Optimize edilenler

Alan Description Target
instructions Sistem istemi ve yönergeler yönerge, beceri
skills Bulunan beceri kataloğu skill
model Model dağıtım adı model
tools Araç tanımları (açıklamalar, parametreler) araç

Modeller

Ajan iyileştiricisi, bir optimizasyon çalıştırması sırasında iki model kullanır. Her ikisi de Foundry projenizde dağıtılmalıdır.

Model Yapılandırma anahtarı CLI bayrağı Rolü Desteklenen modeller
Değerlendirme modeli eval_model --eval-model Ajan yanıtlarını veri kümesindeki ölçütlere göre puanlar Herhangi bir sohbet tamamlama modeli (örneğin, gpt-4.1-mini)
İyileştirme modeli optimization_model --optimize-model Aday yapılandırmaları (yönergeler, beceriler, araçlar, model seçimi) oluşturur gpt-5, gpt-5.1, gpt-5.2, , gpt-5.4, gpt-5.5, DeepSeek-V4-Pro, DeepSeek-V-3.2

Değerlendirme modeli, her görev ve her aday için bir kez çalışır. Ajanın yanıtını ve her ölçütü okur, ardından ikili bir puan döndürür. İyileştirme modeli temel sonuçları analiz eder ve yapılandırılmış hedefler (yönergeler, beceriler, araçlar ve modeller) genelinde geliştirilmiş adaylar oluşturur. Veri kümesinin tamamı üzerinde çıkarım yaptığı için, daha yetkin bir optimizasyon modeli genellikle daha iyi adaylar üretir.

# eval.yaml
options:
  eval_model: gpt-4.1-mini
  optimization_model: gpt-5.1

Important

belirtmelisiniz optimization_modelve iyileştirme modeli yukarıdaki desteklenen listeden olmalıdır.

İyileştirme sonuçlarını anlama

Bu bölümde sonuç tablosu yapısı, puanların nasıl hesaplandığı, puan iyileştirmelerinin anlamı ve yaygın sorunların nasıl tanılandığı açıklanmaktadır.

Tavsiye

İyileştirme sonuçlarını Dökümhane portalında da görüntüleyebilirsiniz. Projenize gidin, Aracılar'ı seçin, aracınızı seçin ve ardından puan karşılaştırmalarını, grafikleri ve dağıtım seçeneklerini görmek için İyileştir sekmesini seçin.

İyileştirme çalıştırması tamamlandıktan sonra bir sonuç tablosu görürsünüz:

Results:
  Candidate              Score  Eval  Strategy
  ──────────────────── ───────  ────  ────────
  baseline                0.93  View
  candidate_1             0.90  View  skill_policy-reviewer
  candidate_2 ★           0.94  View  skill_policy-reviewer, tools
  candidate_3             0.94  View  skill_policy-reviewer, system_prompt, tools
  candidate_4             0.93  View  skill_policy-reviewer, tools

  Candidate IDs:
      baseline             cand_a8a951...
      candidate_1          cand_8d5c85...
    ★ candidate_2          cand_a0ea2e...
      candidate_3          cand_2ae7bb...
      candidate_4          cand_0f6485...

  Apply the best candidate locally, then deploy:
    azd ai agent optimize apply --candidate cand_a0ea2e...
    azd deploy

Sonuç tablosu sütunları

Column Description
Aday Yapılandırmanın adı. baseline, optimizasyondan önce mevcut aracınızdır.
Puan 0,0 ile 1,0 arasında tüm görevler ve ölçütler arasında bileşik puan.
Değerlendirme Foundry portalındaki değerlendirme görevi bağlantısı.
Strategy Adayda yer alan mutasyon hedefleri, örneğin skill_policy-reviewer, tools.

, ★ adayı en yüksek bileşik puanla işaretler. Bu, yayına alınması önerilen adaydır.

Puanlar nasıl hesaplanır?

Veri kümenizdeki her değerlendirici, aracının yanıtı için bir ham puan oluşturur. İyileştirici, sonuçlarda gösterilen bileşik puanı üretmek için şu puanları işler:

  • Yeniden ölçeklendirme: Her değerlendiricinin ham puanı 0-1 olarak yeniden ölçeklendirilir.
  • Gerekirse tersine çevirin: Bir değerlendirici daha düşük daha iyidir şeklinde yapılandırılmışsa, tüm değerlendiricilerin "daha yüksek daha iyidir" semantiğini kullanması için puan tersine çevrilir.
  • Ortalama: Bileşik puanı üretmek için tüm değerlendiriciler ve görevler arasında yeniden ölçeklendirilen puanların ortalaması alınır.

Bileşik puan: Tüm görevler genelinde yeniden ölçeklendirilen tüm değerlendirici puanlarının ortalaması.

Puan geliştirmelerini yorumlama

Geliştirme Yorumlama
0,03'ten küçük Gürültü. Anlamlı bir gelişme değil.
0,03 - 0,10 Orta düzey geliştirme. Dağıtıma değer.
0,10 - 0,20 Önemli bir gelişme.
0,20'den büyük Önemli bir gelişme. Muhtemelen zayıf bir başlangıç sürümünden.

Token ödünleşimleri

İyileştirilmiş yönergeler genellikle daha uzun ve daha ayrıntılıdır ve bu da yanıt belirteci kullanımını artırabilir. Şu faktörleri göz önünde bulundurun:

  • Belirteç artışının puan iyileştirmesi ile orantılı olup olmadığı
  • Maliyet artışının bütçenize uygun olup olmadığı
  • Yanıtların gereksiz yere ayrıntılı olup olmadığı veya fazladan uzunlukla değer ekleyip eklemediği

Sınırlamalar ve kullanılabilirlik