Životní cyklus vývoje agentů

Tato příručka poskytuje výchozí bod pro pochopení celého životního cyklu vytváření aplikace AI nebo agenta AI. V této příručce je "agent AI" zastřešující termín pro systémy poháněné GenAI, včetně jednoduchých volání LLM, funkcí AI a implementací založených na agentech.

Přehled životního cyklu vývoje

  1. Vysvětlení metrik použití, rozsahu a úspěchu
  2. Sestavení počátečního agenta AI
  3. Iterujte na kvalitě agenta AI
  4. Sladění se zúčastněnými stranami před produkcí
  5. Uvolnění do produkčního prostředí a průběžné monitorování kvality

1. Vysvětlení metrik použití, rozsahu a úspěchu

Před vytvořením čehokoli objasněte, co má agent umělé inteligence dělat. Sladte se s klíčovými stranami, včetně lidí, kteří budou schvalovat nasazení do produkčního prostředí.

  • Jaké typy vstupů bude agent zpracovávat (doména nebo obor)? Kteří uživatelé budou odesílat vstupy?
  • Jak by měl agent v ideálním případě reagovat na běžné vstupy? Jaké informace nebo kontext by se měly použít?
  • Jaká kritéria definují dobrou nebo špatnou odpověď: tón, přesnost, úplnost, délka odezvy, bezpečnost, citace nebo jiné požadavky?
  • Jaké požadavky na systém a omezení existují v produkčním prostředí: náklady, latence a škálovatelnost?
  • Jaké jsou potenciální režimy selhání a jak by měl agent zpracovat: chybné vstupy uživatelů, nedostatečné informace pro odpověď, zpětnou vazbu uživatele označující chybnou odpověď nebo jiné?

Zvolte nejjednodušší realizovatelný přístup. Mnoho případů použití nevyžaduje složité agentské ani multi-agentské systémy. Než začnete vytvářet, vyhodnoťte, kde váš problém spadá do kontinua složitosti. Bude stačit jednoduchá deterministická logika nebo dávkové funkce AI? Pokud jsou potřeba dynamické volání nástrojů, odůvodnění nebo koordinace, zvažte agenty volání nástrojů nebo systémy s více agenty. Podrobnější pokyny najdete v vzorech návrhu systému agentů.

Tento základ umožňuje:

  1. Identifikace zdrojů dat a nástrojů, které bude váš agent potřebovat
  2. Napsání počátečních pokynů nebo výzev, které odrážejí zamýšlené chování
  3. Identifikace odborníků na doménu nebo testerů, kteří můžou poskytnout reprezentativní příklady a časnou zpětnou vazbu
  4. Vytváření automatizovaných porotců, které kódují kritéria hodnocení a urychlují iteraci

V této fázi nepotřebujete dokonalou srozumitelnost a vaše porozumění se při iteraci zlepší. Ale silnější počáteční sladění, zejména v otázkách, jak bude kvalita měřena a co znamená "připravenost pro výrobu", činí následné zlepšení kvality a konečné schválení podstatně rychlejší.

2. Sestavení počátečního agenta AI

Jakmile jsou vaše případy použití a cíle dobře definované, jste připraveni vytvořit prototyp agenta AI. Databricks poskytuje trasy založené na uživatelském rozhraní i plně vlastní trasy založené na kódu pro vytváření agentů AI.

2.1. Příprava dat a nástrojů

Agenti umělé inteligence obvykle používají data a nástroje k poskytování kontextu a schopností. Přehled práce s daty a nástroji v Databricks najdete v nástrojích agenta AI .

Před vytvořením nových dat vyhledejte existující data a nástroje:

  • Prozkoumejte dostupná data v katalogu Unity nebo hledání pracovního prostoru, abyste pochopili, jaké řízené prostředky již existují. To vám pomůže pochopit, jaký kontext a možnosti jsou k dispozici před vytvořením nových prostředků.
  • V AI Playground můžete zobrazit a vybrat nástroje, které jsou již k dispozici pro agenty, jako jsou indexy vektorového vyhledávání, servery MCP nebo funkce UC.

Podle potřeby vytvořte a spravujte nové prostředky:

Všechny tyto datové prostředky a nástroje jsou spravovány a verzovány v Unity Catalog, což zajišťuje jejich zjistitelnost a opakovanou použitelnost napříč agenty a aplikacemi AI.

2.2. Postavte počátečního agenta

Před vytvořením vlastního agenta vyhodnoťte, jestli deklarativní agent Knowledge Assistant , funkce AI nebo existující akcelerátor řešení Databricks už odpovídá vašemu případu použití. U běžných vzorů můžou tyto přístupy s asistencí výrazně zjednodušit nastavení, zlepšit výchozí kvalitu a urychlit uvedení do produkčního prostředí.

Pokud se vlastní agent stále vyžaduje, noví uživatelé by měli začít nejrychlejší cestou experimentování. Pomocí AI Playground vytvořte prototyp agenta bez psaní kódu. AI Playground vám umožňuje vyzkoušet různé modely, provádět vytváření podnětů a testovat prostředky, aby bylo možné rychle pochopit kvalitu dat, chování agenta a potenciál vašeho přístupu. Potom můžete agenta exportovat jako kód pro další přizpůsobení a iteraci.

Pokud už máte kód agenta, můžete do Databricks přenést existující kód a nasadit ho jako aplikaci Databricks.

Při sestavování agenta si plánujte dopředu pro vyhodnocení a produkci.

  • Instrumentace agenta pomocí trasování MLflow za účelem zaznamenání a analýzy chování agenta
    • V této fázi se zaměřte na funkční správnost: ujistěte se, že agent běží od začátku do konce a má přístup k požadovaným datům a nástrojům.
    • Proveďte kontrolu pro zjištění dřívějších problémů, jako je nesprávná volba nástroje, chybějící kontext nebo přílišná fantazie.
    • Později se tyto stopy použijí k vyhodnocení kvality agenta.
  • Během implementace zvažte vhodnou metodu ověřování pro produkční aplikaci.

3. Iterace na kvalitě agenta AI

Po vytvoření funkčního prototypu je další fází úzká smyčka měření, porozumění a zlepšení kvality. Databricks umístí hodnocení MLflow do středu této smyčky, podporované trasováním MLflow, datovými sadami pro vyhodnocení a posuzovateli LLM.

Automatizovaní hodnotitelé a porotci LLM poskytují měřítko a konzistenci, ale pro ověřování užitečnosti v reálném světě a pochopení jemných selhání je důležitá zpětná vazba. Lidská zpětná vazba také vede vývoj a kalibraci porotců LLM. Lidská zpětná vazba se obvykle zadává ve třech fázích, jak se agent vyvíjí:

  1. Počáteční ověřování vývojářů a účastníků
  2. Širší okruh odborníků na doménu – hodnocení
  3. Zpětná vazba koncového uživatele

3.1. Ověření předčasného chování

Vývojáři a malá skupina zúčastněných stran nebo odborníků na doménu můžou poskytovat rychlou a časnou zpětnou vazbu. Před testováním a vyhodnocením ověřte, že agent dělá správné věci v nejobyklejších situacích.

Vývojáři během vytváření prototypů často provádějí neformální "kontrolu dojmu", kdy ručně dotazují agenta, aby ověřili, že běží kompletně a chová se podle očekávání. Pomocí uživatelského rozhraní pro trasování v MLflow mohou vývojáři přímo přiřadit zpětnou vazbu nebo očekávání k označení problémů s kvalitou, označovat úspěšné příklady a zaznamenávat poznámky pro budoucí vyhodnocení a iteraci.

Po nasazení interního prototypu poskytuje uživatelské rozhraní Revizní chat aplikace jednoduché uživatelské rozhraní pro shromažďování názorů. Sdílejte uživatelské rozhraní chatu pro váš prototyp s malou sadou vývojářů nebo odborníků na doménu, kteří se mohou ptát na rozumné i problematické dotazy.

Trasování MLflow zaznamenává interakce a zpětnou vazbu k vytvoření počáteční datové sady výsledků. Analyzujte trasování pomocí uživatelského rozhraní nebo kódu MLflow , abyste porozuměli výkonu a chování agenta. Pokud jsou výsledky chybné nebo neočekávané, použijte trasování k ladění:

  • Analyzujte problémy s kvalitou agenta, jako je zneužití nástroje, halucinace nebo chybějící kontext. Použijte opravy, jako je ladění podnětů, využití nástrojů nebo dat. Viz 3.4. Opravte problémy a znovu ověřte vylepšení.
  • Při opakovacím cyklu můžete datovou sadu stop použít jako reprezentativní uživatelské vstupy k vygenerování stop pro váš nový prototyp.
  • Opakujte tuto smyčku: spusťte, zkontrolujte, opravte a znovu spusťte, dokud agent nezpracuje všechny nebo většinu reprezentativních vstupů podle očekávání.
  • Další problémy mohou být odhaleny a vyřešeny v pozdějších iteracích. Zlepšení kvality je iterativní a neomezuje se na tuto počáteční fázi.

Po tomto kroku si můžete být jistí, že se prototyp chová rozumně v běžných případech a dosahuje přiměřené úrovně kvality, než investovat do rozsáhlejšího testování.

3.2. Rozšíření testování a zpětné vazby

Jakmile prototyp funguje v jednoduchých případech, vertikálně navyšte hodnocení kvality rozšířením sady beta testerů a shromažďováním více přizpůsobené zpětné vazby. Tato fáze odhalí slepá místa, jako jsou neočekávaná témata, nepochopené dotazy, nástroje a mezery při načítání nebo nově vznikající vzory použití. Rozšiřuje také testovací datové sady.

  • Zavedení aplikace pro širší sadu zúčastněných stran a odborníků na doménu nebo pro koncové uživatele beta verze. Začleňte jejich zpětnou vazbu, jakmile je agent vystaven širším vzorům použití.
  • Zachyťte podrobnější zpětnou vazbu a očekávání pomocí relací revidování popisků aplikací s vlastním schématem pro odbornou zpětnou vazbu.
  • Vytvářejte evaluační datové sady synchronizací lidské zpětné vazby a označených stop, připravte se na systematické hodnocení a monitorování v dalším kroku.
  • Pokud chcete datovou sadu vyhodnocení dále rozšířit, zvažte generování syntetických sad vyhodnocení.

3.3. Systematicky vyhodnocovat kvalitu a ladění

S tím, jak se vaše vyhodnocovací datové sady stávají většími a různorodějšími, budete potřebovat strukturované a automatizovanější způsoby detekce problémů, odhalení nejdůležitějších chyb a pochopení původních příčin.

V praxi pravděpodobně rozdělíte data do dvou typů datových sad vyhodnocení:

  • Regresní testování: Data s vysoce kvalitními odpověďmi umělé inteligence pomáhají definovat očekávané chování. Pomocí těchto datových sad ověřte, že nové verze agenta budou i nadále dobře fungovat v široké a různorodé sadě očekávaných scénářů.
  • Ladění zaměřené na problém: Data s odpověďmi umělé inteligence s nízkou kvalitou můžou zahrnovat řadu nežádoucích chování. Izolujte skupiny trasování, které vykazují stejné typy nekvalitního chování, abyste pochopili hlavní příčiny a iterovali na cílených opravách.

Následující nástroje vám pomůžou sestavovat a analyzovat oba typy testovacích datových sad.

Spouštění regresních testů

  • Sestavte regresní testy výběrem reprezentativních podmnožin dat, pro které máte vysoce kvalitní odpovědi AI nebo lidská očekávání.
  • Definujte kritéria hodnocení pomocí vestavěných nebo vlastních porotců a hodnotitelů LLM. Automatizované hodnocení může použít samotné LLM k posouzení kvality odpovědí nebo mohou porovnávat odpovědi proti odpovědím na základě pravdivých informací nebo očekávání.
  • Spusťte vyhodnocení u nových verzí vašeho agenta, abyste zajistili, že aktualizace nezhoršují dříve dobré chování.

Identifikace typů odpovědí s nízkou kvalitou

Zlepšení přesnosti automatizovaného zjišťování

I když můžete začít vytvářet vyhodnocovací datové sady pomocí převážně lidské zpětné vazby, můžete vyhodnocení škálovat pomocí automatizovaného zjišťování. Při iteraci investujte do hodnocení LLM nebo výkonnostních metrik založených na kódu, které jsou přizpůsobené vaší aplikaci a doméně.

  • Začněte s integrovanými porotci a podle potřeby přidejte vlastní porotce a skórovací mechanismy založené na kódu. Když zjistíte režim selhání, který není zachycen předdefinovaným soudcem, můžete automatizovat budoucí detekci pomocí vlastního soudce nebo scoreru navrženého k detekci konkrétního typu selhání.
  • Pomocí lidské zpětné vazby můžete přizpůsobit vlastní soudce, aby odpovídali odbornému porozumění. Optimalizace porotců, aby snížila falešně pozitivní a negativní výsledky, zvýší důvěru v automatizované hodnocení a třídění.
  • Vaše nové porotce a hodnotící lze použít jak pro automatizované vyhodnocení a monitorování, tak pro filtrování záznamů s cílem sestavit datové sady pro ladění.

Diagnostikovat a řešit základní problémy efektivně

Po identifikaci selhání je potřeba určit, proč k chybě došlo.

  • Pomocí trasování MLflow zkontrolujte jednotlivé kroky odůvodnění agenta ručně:
    • Které nástroje byly vybrány
    • Jak se použily vstupy a výstupy nástrojů
    • Určuje, jestli načítání vrátilo relevantní kontext.
    • Vliv odpovědí modelu na podřízená rozhodnutí
  • Pomocí Přehledy AI MLflow nebo agent-as-a-judge můžete analyzovat stopy a ukázat na pravděpodobné příčiny, jako je nedostatečné základy, špatná struktura podnětu nebo nesprávné argumenty nástroje.
  • Porovnejte verze v hodnotícím uživatelském rozhraní MLflow a zjistěte, zda se problémy vrací nebo přetrvávají napříč iteracemi.

Ideální výsledek tohoto kroku je mít strukturované porozumění tomu, co selhává, proč selhává a jak ho opravit. Automatizovaní a specificky pro aplikaci určení soudci vám umožňují iterovat s důvěrou, zatímco váš agent je stále schopnější a testovací sada stále složitější.

3.4. Oprava problémů a opětovné ověření vylepšení

Stejně jako problémy jsou specifické pro aplikaci, musí být opravy přizpůsobené vaší aplikaci. Mezi běžné opravy patří:

  • Optimalizace výzvy: Upřesněte pokyny agenta ručně nebo použijte optimalizaci výzvy řízené daty. Pro širší optimalizaci agentů, jako je ladění vícestupňového odůvodnění nebo použití nástrojů, použijte ladění DSPy.
  • Nástroje a data: Vylepšete nástroje nebo procesy získávání dat, když trasování zobrazuje chybějící fakta nebo slabý základ.
  • Směrování: Pokud trasování ukazuje, že byly použity nesprávné nástroje nebo dílčí agenty, měly by být vylepšeny metadata nástroje nebo agenta, výzvy či model směrování.
  • Zábrany: Když odpovědi porušují bezpečnostní pravidla nebo unikají informace, použijte ve svém agentu ochranné zábrany AI Gateway nebo přizpůsobené zábrany.
  • Náhradní řešení: Zpracování extrémních případů, chybějících dat nebo selhání volání rozhraní API efektivně pomocí náhradních mechanismů, jako jsou alternativní koncové body rozhraní API nebo náhradní odpovědi.

Při iteraci oprav použijte registr výzvy k zaznamenání verzí pro jednodušší porovnání a regresní testování.

Každá oprava výziev, načítání, nástrojů, dat nebo jiných částí agenta by měla být ověřena stejným způsobem, jakým byla zjištěna. Znovu spusťte novou verzi agenta ve stejných zkušebních datových sadách, abyste ověřili, že je problém opravený a nebyly zavedeny žádné regrese.

4. Sladění se zúčastněnými stranami před výrobou

Před vydáním agenta do skutečného prostředí potřebují týmy sdílené znalosti o svých aktuálních schopnostech, omezeních a měřené kvalitě. Do tohoto bodu obvykle potřebujete několik kol iterace a zlepšení kvality v kroku 3. V této fázi přeložte technické signály (například metriky vyhodnocení, systémové metriky a ukázkové trasování) do obchodního kontextu, který nakonec určí, jestli je agent skutečně "připravený".

  • Výsledky vyhodnocení můžete přeložit na jasné obchodní signály: Shrnutí přesnosti, stability, bezpečnosti a známých omezení v jazycích, na kterých můžou zúčastněné strany reagovat.
  • Ověřte, že jsou splněny standardizované kontroly kvality: Ujistěte se, že pro kandidátovou verzi projdou požadované metriky vyhodnocení, regresní kontroly a prahové hodnoty pokrytí datové sady.
  • Ověřte provozní připravenost a získejte odhlášení: Zkontrolujte nastavení monitorování, mantinely a plán zavedení. Zdokumentujte rizika a kritéria přijetí před výrobou.

5. Uvolnění do produkčního prostředí a průběžné monitorování kvality

Dosažení produkce je významným milníkem! Znamená to, že agent je připravený pro skutečné uživatele a skutečný dopad. Zároveň je produkce také začátkem nového cyklu. Jakmile je agent aktivní, přejde do průběžného monitorování a zlepšování, protože skutečné využití odhalí nové chování, hraniční případy a problémy.

  • Shromážděte zpětnou vazbu od koncových uživatelů v produkčním prostředí. Propojte zpětnou vazbu uživatelů na konkrétní trasování, aby bylo možné ji analyzovat společně s chováním modelu. Můžete to provést zaznamenáním zpětné vazby jako hodnocení připojených k původnímu trasování.
  • Využijte AI Gateway pro mantinely, směrování a konzistentní protokolování. Zajistěte, aby každá nová verze agenta byla vyhodnocena proti skutečnému provozu bez provozního tření.
  • Sledujte kvalitu živého provozu spuštěním vyhodnocení v ukázkových produkčních trasách. Ověřte, že nová verze vykonává alespoň tak dobře jako předchozí verze, a hledejte nové problémy, když uživatelé odesílají nové typy dotazů. Nepřetržité monitorování udržuje agenta spolehlivým, bezpečným a v souladu s obchodními potřebami v průběhu jeho vývoje. MLflow poskytuje řídicí panel monitorování, ale protože trasování lze uložit v katalogu Unity, můžete přizpůsobit řídicí panely a výstrahy:
  • Jednat na základě výrobních přehledů:
    • U případů použití s vysokým rizikem propojte monitorování s automatizovanými nebo kontrolovanými mechanismy vrácení zpět, abyste opravili kritické problémy.
    • Využijte produkční přehledy v další iteraci. Převeďte skutečná selhání na nová data vyhodnocení a vraťte se do smyčky vyhodnocení a ladění , abyste vytvořili další, lepší verzi vašeho agenta.

Další kroky