Ajan geliştirme yaşam döngüsü

Bu kılavuz, yapay zeka uygulaması veya yapay zeka aracısı oluşturmanın tüm yaşam döngüsünü anlamak için bir başlangıç noktası sağlar. Bu kılavuz boyunca "yapay zeka aracısı", basit LLM çağrıları, yapay zeka işlevleri ve aracı tabanlı uygulamalar da dahil olmak üzere GenAI destekli sistemler için bir şemsiye terimidir.

Geliştirme yaşam döngüsüne genel bakış

  1. Kullanım örneği, kapsam ve başarı ölçümlerini anlama
  2. İlk yapay zeka aracısı oluşturma
  3. Yapay zeka aracı kalitesini iyileştirme
  4. Üretimden önce paydaşlarla uyumlu hale getirme
  5. Üretime bırakın ve kaliteyi sürekli izleyin

1. Kullanım örneği, kapsam ve başarı ölçümlerini anlama

Herhangi bir şey oluşturmadan önce yapay zeka aracısının ne yapmak istediğini netleştirin. Üretime dağıtımı onaylayacak kişiler de dahil olmak üzere paydaşlarla uyumlu olun.

  • Aracı hangi tür girişleri işleyecek ("etki alanı" veya "kapsam")? Hangi kullanıcılar girişleri gönderir?
  • Aracı yaygın girişlere ideal olarak nasıl yanıt vermelidir? Hangi bilgileri veya bağlamı kullanmalıdır?
  • hangi ölçütler iyi veya kötü bir yanıtı tanımlar: ton, doğruluk, tamlık, yanıt uzunluğu, güvenlik, alıntılar veya diğer gereksinimler?
  • Üretimde hangi sistem gereksinimleri ve kısıtlamaları vardır: maliyet, gecikme süresi ve ölçeklenebilirlik?
  • Olası hata modları nelerdir ve aracı bunları nasıl ele almalıdır: kötü kullanıcı girişleri, yanıt için yetersiz bilgi, kötü bir yanıta işaret eden kullanıcı geri bildirimi veya diğerleri?

En basit uygulanabilir yaklaşımı seçin. Birçok kullanım örneği karmaşık aracılı veya çok aracılı sistemler gerektirmez. İnşa etmeden önce, sorununuzun karmaşıklık spektrumunda nerede olduğunu değerlendirin. Basit belirleyici mantık veya toplu yapay zeka işlevleri yeterli mi? Dinamik araç çağırma, akıl yürütme veya koordinasyon gerekiyorsa, araç çağırma aracılarını veya çok aracılı sistemleri göz önünde bulundurun. Daha ayrıntılı yönergeler için Ajan sistemi tasarım desenleri bölümüne bakınız.

Bu temel şunları sağlar:

  1. Aracınızın ihtiyaç duyacağı veri kaynaklarını ve araçları belirleme
  2. Hedeflenen davranışı yansıtan ilk yönergeleri veya istemleri yazma
  3. Temsili örnekler ve erken geri bildirim sağlayabilen etki alanı uzmanlarını veya test edenleri belirleme
  4. Değerlendirme ölçütlerini kodlayan ve yinelemeyi hızlandıran otomatik yargıçlar oluşturma

Bu aşamada mükemmel netlik gerekmez ve yinelediğiniz sürece anlayışınız geliştirilecektir. Erken dönemde, özellikle kalitenin nasıl ölçüleceği ve "tamamen üretime hazır" ifadesinin ne anlam taşıdığı konusunda daha güçlü bir hizalanma, sonraki kalite iyileştirmelerini ve onay sürecini önemli ölçüde hızlandırır.

2. İlk yapay zeka aracısı oluşturma

Kullanım örneğiniz ve hedefleriniz iyi tanımlandıktan sonra yapay zeka aracınızın prototipini oluşturmaya hazır olursunuz. Databricks, yapay zeka aracıları oluşturmak için hem kılavuzlu, kullanıcı arabirimi tabanlı yollar hem de tamamen özel, kod tabanlı yollar sağlar.

2.1. Verileri ve araçları hazırlama

Yapay zeka aracıları genellikle bağlam ve yetenekler sağlamak için veri ve araçları kullanır. Databricks'te verilerle ve araçlarla çalışmaya genel bir bakış için bkz. Yapay zeka aracısı araçları .

Yenilerini oluşturmadan önce mevcut verileri ve araçları arayın:

  • Hangi yönetilen varlıkların zaten mevcut olduğunu anlamak için Unity Kataloğu'nda veya çalışma alanı aramasında kullanılabilir verileri keşfedin. Bu, yeni varlıklar oluşturmadan önce hangi bağlam ve özelliklerin kullanılabilir olduğunu anlamanıza yardımcı olur.
  • AI Playground'da Vektör Arama dizinleri, MCP sunucuları veya UC İşlevleri gibi aracıların kullanımına sunulan araçları görüntüleyebilir ve seçebilirsiniz.

Yeni varlıkları gerektiği gibi oluşturun ve yönetin:

Bu veri varlıklarının ve araçlarının tümü Unity Kataloğu'nda yönetilir ve sürümlenir ve yapay zeka aracıları ve uygulamaları arasında bulunabilir ve yeniden kullanılabilir hale gelir.

2.2. İlk aracı oluşturma

Özel bir aracı oluşturmadan önce bildirim temelli bir Bilgi Yardımcısı aracısı, AI işlevleri veya mevcut databricks çözümleri hızlandırıcısının kullanım örneğinizle zaten eşleşip eşleşmediğini değerlendirin. Yaygın desenler için bu kılavuzlu yaklaşımlar kurulumu önemli ölçüde azaltabilir, varsayılan kaliteyi artırabilir ve üretim süresini hızlandırabilir.

Özel bir ajan hâlâ gerekiyorsa, yeni geliştiriciler denemeye başlamak için en hızlı yöntemle başlamalıdır. Kod yazmadan aracı prototipi oluşturmak için AI Playground'ı kullanın. AI Playground, veri kalitesini, aracı davranışını ve yaklaşımınızın potansiyelini hızla anlamak için farklı modelleri denemenize, hızlı mühendislik ve test araçları gerçekleştirmenize olanak tanır. Daha sonra aracıyı daha fazla özelleştirme ve yineleme için kod olarak dışarı aktarabilirsiniz.

Aracı kodunuz zaten varsa mevcut kodu Databricks'e getirebilir ve databricks uygulaması olarak dağıtabilirsiniz.

Ajanınızı oluştururken değerlendirme ve prodüksiyon için önceden plan yapın.

  • Aracınızı, aracın davranışını kaydetmek ve analiz etmek için MLflow İzlemeyi kullanarak donatın.
    • Bu aşamada işlevsel doğruluğa odaklanın: Aracının uçtan uca çalıştığından ve gerekli veri ve araçlara erişebildiğinden emin olun.
    • Vibe yanlış araç seçimi, eksik bağlam veya halüsinasyonlar gibi erken sorunları denetler.
    • Daha sonra, bu izlemeler aracı kalitesini değerlendirmek için kullanılacaktır.
  • Uygulama sırasında üretim uygulamanız için doğru kimlik doğrulama yöntemini göz önünde bulundurun.

3. Yapay zeka aracı kalitesini yineleme

Çalışan bir prototip mevcut olduktan sonra, sonraki aşama sıkı bir kalite ölçümü, anlaşılması ve geliştirilmesi döngüsüdür. Databricks, MLflow Takip, değerlendirme veri kümeleri ve LLM yargıçları tarafından desteklenen MLflow Değerlendirmesini bu döngünün merkezine yerleştirir.

Otomatik puanlayıcılar ve LLM yargıçları ölçek ve tutarlılık sağlar, ancak insan geri bildirimleri gerçek dünyadaki kullanışlılığı doğrulamak ve küçük hataları anlamak için kritik öneme sahiptir. İnsan geri bildirimi, LLM yargıçlarının geliştirilmesine ve kalibrasyonuna da yol gösterir. Temsilci olgunlaştıkça insan geri bildirimleri genellikle üç aşamadan oluşur:

  1. Erken geliştirici ve paydaş doğrulaması
  2. Daha geniş alan uzmanları incelemesi
  3. Son kullanıcı geri bildirimi

3.1. Erken davranışı doğrulama

Geliştiriciler ve küçük bir paydaş grubu veya etki alanı uzmanı hızlı ve erken geri bildirim sağlayabilir. Test ve değerlendirmeyi ölçeklendirmeden önce aracının en belirgin durumlarda doğru işleri yaptığını onaylayın.

Prototip oluşturma sırasında geliştiriciler genellikle aracıyı el ile sorgulayarak uçtan uca çalıştığını ve beklendiği gibi davrandığını onaylayarak resmi olmayan bir "vibe denetimi" gerçekleştirir. MLflow İzleme kullanıcı arabirimiyle geliştiriciler kalite sorunlarını işaretlemek, başarılı örnekleri işaretlemek ve gelecekteki değerlendirme ve yineleme için notları yakalamak için doğrudan izlemelere geri bildirim veya beklentiler ekleyebilir .

Bir dahili prototip dağıttığınızda, Gözden Geçirme Uygulaması Sohbet UI geri bildirim toplamak amacıyla kullanılan basit bir kullanıcı arabirimi sunar. Prototipinizin Sohbet kullanıcı arabirimini hem makul hem de sorunlu sorgular sorabilen küçük bir geliştirici veya etki alanı uzmanları kümesiyle paylaşın.

MLflow İzleme, ilk bir sonuç veri kümesi oluşturmak için etkileşimleri ve geri bildirimleri kaydeder. Aracının performansını ve davranışını anlamak için MLflow kullanıcı arabirimi veya koduyla izlemeleri analiz edin. Sonuçlar kötü veya beklenmedikse, hata ayıklamak için izleri kullanın.

  • Aracıda araç kötüye kullanımı, halüsinasyonlar veya eksik bağlam gibi kalite sorunlarını analiz edin. İstem ayarlama, araç kullanımı veya veriler gibi düzeltmeleri uygulayın. Bkz . 3.4. Sorunları düzeltin ve iyileştirmeleri yeniden doğrulayın.
  • Yinelerken, yeni prototipiniz için izlemeler oluşturmak üzere izleme veri kümesini temsili kullanıcı girişleri olarak kullanabilirsiniz.
  • Aracı, temsili girişlerin tümünü veya çoğunu beklendiği gibi işleyene kadar bu döngünün tekrarını yapın: çalıştırın, inceleyin, düzeltin ve yeniden çalıştırın.
  • Daha sonraki yinelemelerde daha fazla sorun ortaya çıkabilir ve giderilebilir. Kalite iyileştirme yinelemeli ve bu erken aşama ile sınırlı değildir.

Bu adımdan sonra, daha kapsamlı testlere yatırım yapmadan önce prototipin yaygın durumlarda hassas davranıp makul bir kalite düzeyine ulaşacağından emin olabilirsiniz.

3.2. Test ve geri bildirimi genişletme

Prototip basit durumlarda işe yaradıktan sonra, beta test edici kümenizi genişleterek ve daha özelleştirilmiş geri bildirimler toplayarak kalite değerlendirmesini artırın. Bu aşamada beklenmeyen konular, yanlış anlaşılan sorgular, araçlar ve alma boşlukları veya yeni ortaya çıkan kullanım desenleri gibi kör noktalar ortaya çıkar. Ayrıca değerlendirme veri kümelerinizi genişletir.

  • Uygulamayı daha geniş bir proje katılımcıları ve etki alanı uzmanları kümesine veya beta son kullanıcılara dağıtın. Aracın daha geniş kullanım desenlerine maruz kalmasıyla birlikte geri bildirimlerini dahil edin.
  • Uzman geri bildirimi için özel şemayla Uygulama etiketleme oturumlarını gözden geçir'i kullanarak daha ayrıntılı geri bildirim ve beklentileri yakalayın.
  • bir sonraki adımda insan geri bildirimlerini ve etiketlenmiş izlemeleri eşitleyerek, sistematik değerlendirme ve izlemeye hazırlanarak değerlendirme veri kümeleri oluşturun.
  • Değerlendirme veri kümesini daha da zenginleştirmek için yapay değerlendirme kümeleri oluşturmayı göz önünde bulundurun.

3.3. Kaliteyi değerlendirme ve sistematik olarak hata ayıklama

Değerlendirme veri kümeleriniz daha büyük ve daha çeşitli hale geldikçe sorunları algılamak, en önemli hataları ortaya çıkarabilmek ve kök nedenlerini anlamak için yapılandırılmış ve daha otomatik yöntemlere ihtiyacınız olacaktır.

Uygulamada, büyük olasılıkla verilerinizi iki tür değerlendirme veri kümesine bölersiniz:

  • Regresyon testi: Yüksek kaliteli yapay zeka yanıtlarına sahip veriler beklenen davranışı tanımlamaya yardımcı olur. Bu veri kümelerini, aracının yeni sürümlerinin geniş ve çeşitli beklenen senaryolar genelinde iyi performans göstermeyi sürdürdüğünü doğrulamak için kullanın.
  • Sorun odaklı hata ayıklama: Düşük kaliteli yapay zeka yanıtlarına sahip veriler çeşitli istenmeyen davranışlar içerebilir. Kök nedenlerini anlamak ve hedeflenen düzeltmeleri yinelemek için aynı düşük kaliteli davranış türlerini sergileyen izleme gruplarını yalıtın.

Aşağıdaki araçlar, her iki değerlendirme veri kümesinin de oluşturulmasına ve analizine yardımcı olur.

Regresyon testleri çalıştırma

Düşük kaliteli yanıt türlerini belirleme

Otomatik algılamanın doğruluğunu geliştirme

Çoğunlukla insan geri bildirimlerini kullanarak değerlendirme veri kümeleri oluşturmaya başlayabilirsiniz ancak otomatik algılama ile değerlendirmeyi ölçeklendikleyebilirsiniz. Yinelerken, uygulamanıza ve sektörünüze göre uyarlanmış LLM yargıçlarına veya kod tabanlı puanlayıcılara yatırım yapın.

Sorunların kök nedenlerini etkili bir şekilde çözün

Bir hata belirlendikten sonra neden oluştuğuna karar vermeniz gerekir.

  • MLflow İzlemeyi kullanarak aracının mantığının her adımını manuel olarak inceleyin:
    • Hangi araçların seçildiği
    • Araç girişlerinin ve çıkışlarının nasıl kullanıldığı
    • Alma işlemi ilgili bağlamı döndürdü mü?
    • Model yanıtları aşağı akış kararlarını nasıl etkiledi?
  • İzleri analiz etmek ve zayıf topraklama, hatalı istem yapısı veya yanlış araç bağımsız değişkenleri gibi olası nedenlere işaret etmek için MLflow Yapay Zeka İçgörüleri veya jüri görevindeki ajan'ı uygulayın.
  • Sorunların yinelemeler arasında gerileyip gerilemediğini veya kalıcı olup olmadığını görmek için MLflow'un değerlendirme kullanıcı arabirimindeki sürümleri karşılaştırın.

Bu adımın ideal sonucu, neyin başarısız olduğunu, neden başarısız olduğunu ve nasıl düzeltileceğini yapılandırılmış bir şekilde anlamaktır. Otomasyon ve uygulamaya özgü hakimler, aracınız daha yetenekli hale geldikçe ve test kümesi daha karmaşık hale geldikçe güvenle yinelemenize olanak sağlar.

3.4. Sorunları düzeltme ve iyileştirmeleri yeniden doğrulama

Sorunlar uygulamaya özgü olduğu gibi düzeltmelerin de uygulamanıza uyarlanması gerekir. Yaygın düzeltmelere örnek olarak şunlar verilebilir:

  • İstem iyileştirme: Aracının yönergelerini el ile geliştirin veya veri temelli istem iyileştirmesini kullanın. Daha geniş ajan optimizasyonu, örneğin çok adımlı akıl yürütme veya araç kullanımı ayarlamaları için DSPy ayarlamasını kullanın.
  • Araçlar ve veriler: İzler eksik olgular veya zayıf temellendirme gösterdiğinde araçları veya alma akışlarını geliştirin.
  • Yönlendirme: İzler, yanlış araçların veya alt ajanların çağrıldığını gösterdiğinde, araç veya ajan meta verilerini, komutları ya da yönlendirme modelini geliştirin.
  • Korumalar: Yanıtlar güvenlik kurallarını ihlal ettiğinde veya bilgileri sızdırdığında, yapay zeka asistanınızda AI Gateway koruma mekanizmalarını veya özelleştirilmiş kontrol mekanizmalarını kullanın.
  • Geri dönüşler: Alternatif API uç noktaları veya geri dönüş yanıtları gibi geri dönüş mekanizmalarını kullanarak aşırı durumları, eksik verileri veya API çağrısı hatalarını düzgün bir şekilde işleyebilir.

Düzeltmeleri yinelerken, daha basit karşılaştırmalar ve regresyon testi için sürümleri kaydetmek için İstem Kayıt Defteri'ni kullanın.

İstemlere, almalara, araçlara, verilere veya aracınızın diğer bölümlerine yönelik her düzeltme, bulunduğu şekilde doğrulanmalıdır. Sorunun düzeltildiğini ve herhangi bir regresyon uygulanmadığını onaylamak için yeni aracı sürümünü aynı değerlendirme veri kümelerinde yeniden çalıştırın.

4. Üretimden önce paydaşlarla uyumlu hale getirme

Bir aracıyı gerçek bir ortama yayınlamadan önce ekiplerin geçerli özellikleri, sınırlamaları ve ölçülen kalitesi hakkında paylaşılan bir anlayışa sahip olması gerekir. Bu noktaya gitmek için genellikle 3. Adımda birden çok yineleme ve kalite geliştirmesi gerekir. Bu aşamada, teknik sinyalleri (değerlendirme ölçümleri, sistem ölçümleri ve örnek izlemeler gibi) aracının gerçekten "hazır" olup olmadığını belirleyen iş bağlamı içine çevirin.

  • Değerlendirme sonuçlarını net iş sinyallerine çevirin: Paydaşların üzerinde işlem yapabilecekleri dillerdeki doğruluk, kararlılık, güvenlik ve bilinen sınırlamaları özetleyin.
  • Standart kalite denetimlerinin karşılandığından emin olun: Aday sürümü için gerekli değerlendirme ölçümlerinin, regresyon denetimlerinin ve veri kümesi kapsamı eşiklerinin geçtiğinden emin olun.
  • İşletimsel hazırlığı doğrulayın ve imza onayı alın: İzleme kurulumunu, güvenlik önlemlerini ve dağıtım planını gözden geçirin. Üretimden önce riskleri ve kabul ölçütlerini belgele.

5. Üretime bırakın ve kaliteyi sürekli izleyin

Üretime ulaşmak önemli bir kilometre taşıdır! Bu, aracının gerçek kullanıcılar ve gerçek etki için hazır olduğu anlamına gelir. Aynı zamanda üretim de yeni bir döngünün başlangıcıdır. Bir aracı faaliyete başladıktan sonra, sürekli izleme ve iyileştirme süreçleri sürdürülür çünkü gerçek kullanım yeni davranışları, uç durumları ve sorunları ortaya çıkaracaktır.

  • Üretimdeki son kullanıcılardan geri bildirim toplayın. Model davranışıyla birlikte analiz edilebilmesi için kullanıcı geri bildirimlerini belirli izlemelere bağlayın. Bunu yapmak için geri bildirimleri özgün iz kaydına ekli değerlendirme olarak kaydedebilirsiniz.
  • Güvenlik çitleri, yönlendirme ve tutarlı günlük kaydı için AI Gateway'i kullanın. Her yeni temsilci sürümünün operasyonel zorluklar olmadan gerçek trafiğe karşı değerlendirilebileceğinden emin olun.
  • Örneklenen üretim izlemelerinde değerlendirme çalıştırarak canlı trafik kalitesini izleyin. Yeni sürümün en az önceki sürümler kadar iyi performans gösterdiğini onaylayın ve kullanıcılar yeni sorgu türleri gönderdikçe ortaya çıkan yeni sorunları araştırın. Sürekli izleme, aracıyı güvenilir, güvenli ve geliştikçe iş gereksinimleriyle uyumlu tutar. MLflow bir izleme panosu sağlar, ancak izlemeler Unity Kataloğu'nda depolanabildiği için panoları ve uyarıları özelleştirebilirsiniz:
  • Üretim içgörülerine göre hareket etme:
    • Yüksek riskli kullanım örnekleri için, kritik sorunları düzeltmek için izlemeyi otomatik veya geçitli geri alma mekanizmalarına bağlayın.
    • Sonraki yinelemenizde üretim içgörülerinizi kullanın. Gerçek dünyadaki hataları yeni değerlendirme verilerine dönüştürün ve aracınızın sonraki, daha iyi sürümünü oluşturmak için değerlendirme ve hata ayıklama döngüsüne dönün.

Sonraki Adımlar