Odeslání dávkového spuštění a vyhodnocení toku

Článek
05/21/2024

Pokud chcete vyhodnotit, jak dobře tok funguje s velkou datovou sadou, můžete odeslat dávkové spuštění a použít integrované metody vyhodnocení v toku výzvy.

V tomto článku se naučíte:

Odeslání dávkového spuštění a použití integrované metody vyhodnocení
Zobrazení výsledku vyhodnocení a metrik
Zahájení nového kola vyhodnocení
Kontrola historie spuštění služby Batch a porovnání metrik
Vysvětlení předdefinovaných metrik vyhodnocení
Způsoby zlepšení výkonu toku
Další informace: Pokyny k vytváření zlatých datových sad používaných pro kontrolu kvality Copilotu

Můžete rychle začít testovat a vyhodnocovat tok podle tohoto videokurzu odeslání dávkového spuštění a vyhodnocení videokurzu toku.

Požadavky

Pokud chcete spustit dávkové spuštění a použít metodu vyhodnocení, musíte mít připravenou následující:

Testovací datová sada pro dávkové spuštění Vaše datová sada by měla být v jednom z těchto formátů: .csv, .tsvnebo .jsonl. Vaše data by také měla obsahovat hlavičky, které odpovídají vstupním názvům vašeho toku. Další informace: Pokud vytváříte vlastní kopírovací objekt, doporučujeme odkazovat na pokyny k vytváření zlatých datových sad používaných pro kontrolu kvality Copilot.

Odeslání dávkového spuštění a použití integrované metody vyhodnocení

Dávkové spuštění umožňuje spustit tok s velkou datovou sadou a vygenerovat výstupy pro každý řádek dat. Můžete také zvolit metodu vyhodnocení pro porovnání výstupu toku s určitými kritérii a cíli. Metoda vyhodnocení je speciální typ toku, který vypočítá metriky pro výstup toku na základě různých aspektů. Spuštění vyhodnocení se provede, aby se vypočítaly metriky při odeslání pomocí dávkového spuštění.

Pokud chcete spustit dávkové spuštění s vyhodnocením, můžete vybrat tlačítko Vyhodnotit v pravém horním rohu stránky toku.

Pokud chcete odeslat dávkové spuštění, můžete vybrat datovou sadu, pomocí které chcete tok otestovat. Můžete také vybrat metodu vyhodnocení pro výpočet metrik pro výstup toku. Pokud nechcete použít metodu vyhodnocení, můžete tento krok přeskočit a spustit dávkové spuštění bez výpočtu metrik. Můžete také zahájit nové kolo hodnocení později.

Nejprve se zobrazí výzva, abyste své dávce dali popisný a rozpoznatelný název. Do dávkového spuštění můžete také napsat popis a přidat značky (páry klíč-hodnota). Po dokončení konfigurace pokračujte výběrem možnosti Další .

Zadruhé musíte vybrat nebo nahrát datovou sadu, pomocí které chcete tok otestovat. Tok výzvy také podporuje mapování vstupu toku na konkrétní datový sloupec v datové sadě. To znamená, že můžete přiřadit sloupec k určitému vstupu. Sloupec můžete přiřadit ke vstupu odkazováním na ${data.XXX} formát. Pokud chcete přiřadit konstantní hodnotu vstupu, můžete tuto hodnotu zadat přímo.

V dalším kroku se pak můžete rozhodnout použít metodu vyhodnocení k ověření výkonu tohoto spuštění buď okamžitě, nebo později. U dokončeného dávkového spuštění je možné přidat nové kolo hodnocení.

Pokud chcete tento krok přeskočit, můžete přímo vybrat tlačítko Další a spustit dávkové spuštění bez použití jakékoli metody vyhodnocení k výpočtu metrik. Tímto způsobem toto dávkové spuštění generuje výstupy pouze pro vaši datovou sadu. Výstupy můžete zkontrolovat ručně nebo je exportovat pro další analýzu s jinými metodami.

Jinak pokud chcete spustit dávkové spuštění s vyhodnocením, můžete vybrat jednu nebo více metod vyhodnocení na základě zadaného popisu. Pokud chcete zobrazit další informace o metodě vyhodnocení, například metriky, které generuje, a připojení a vstupy, které vyžaduje, můžete vybrat tlačítko Další podrobnosti .

Přejděte k dalšímu kroku a nakonfigurujte nastavení vyhodnocení. V části Mapování vstupních hodnot je nutné zadat zdroje vstupních dat potřebných pro metodu vyhodnocení. Například sloupec základní pravdy může pocházet z datové sady. Ve výchozím nastavení používá vyhodnocení stejnou datovou sadu jako testovací datová sada poskytnutá testovanému spuštění. Pokud jsou ale odpovídající popisky nebo cílové hodnoty základní pravdy v jiné datové sadě, můžete na tuto datovou sadu snadno přepnout.

Proto ke spuštění vyhodnocení potřebujete určit zdroje těchto požadovaných vstupů. Pokud to chcete udělat, zobrazí se při odesílání vyhodnocení část "Mapování vstupu vyhodnocení" .

Pokud zdroj dat pochází z výstupu spuštění, zdroj se označí jako ${run.output.[ OutputName]}"
Pokud zdroj dat pochází z testovací datové sady, je zdroj označený jako ${data.[ ColumnName]}"

Poznámka:

Pokud vaše vyhodnocení nevyžaduje data z datové sady, nemusíte odkazovat na žádné sloupce datové sady ve vstupní části mapování, což znamená, že výběr datové sady je volitelná konfigurace. Výběr datové sady neovlivní výsledek vyhodnocení.

Pokud metoda vyhodnocení používá k měření výkonu odpovědi toku velké jazykové modely (LLM), musíte také nastavit připojení pro uzly LLM v metodách vyhodnocení.

Poznámka:

Některé metody vyhodnocení vyžadují spuštění GPT-4 nebo GPT-3. Než je použijete, musíte pro tyto metody vyhodnocení zadat platná připojení. Některé procesy vyhodnocení můžou zabírat velké množství tokenů, proto doporučujeme použít model, který může podporovat >=16 tisíc tokenů.

Jakmile dokončíte mapování vstupu, výběrem možnosti Další zkontrolujte nastavení a výběrem možnosti Odeslat spusťte dávkové spuštění s vyhodnocením.

Poznámka:

Spuštění služby Batch mají maximální dobu trvání 10 hodin. Pokud dávkové spuštění překročí tento limit, bude ukončeno a označeno jako neúspěšné. Doporučujeme monitorovat kapacitu llm (Large Language Model), abyste se vyhnuli omezování. V případě potřeby zvažte zmenšení velikosti dat. Pokud máte dál problémy nebo potřebujete další pomoc, neváhejte kontaktovat náš produktový tým prostřednictvím formuláře pro zpětnou vazbu nebo žádosti o podporu.

Zobrazení výsledku vyhodnocení a metrik

Po odeslání najdete odeslané dávkové spuštění na kartě seznam spuštění na stránce toku výzvy.

Výběrem spuštění přejděte na stránku Výsledků spuštění a zkontrolujte výsledky tohoto dávkového spuštění.

Výstup

Základní výsledek a trasování

Tím se nejprve přesměruje na kartu Výstup a zobrazí se vstupy a výstupy řádek po řádku. Na stránce s kartou Výstup se zobrazí seznam výsledků, včetně ID řádku, vstupu, výstupu, stavu, systémových metrik a času vytvoření.

U každého řádku můžete výběrem možnosti Zobrazit trasování sledovat a ladit konkrétní testovací případ na stránce s podrobným trasováním.

Připojit výsledek vyhodnocení a trasování

Výběr výstupu vyhodnocení připojení umožňuje vybrat související spuštění vyhodnocení a na konci tabulky se zobrazí připojené sloupce zobrazující výsledek vyhodnocení pro každý řádek dat. K porovnání je možné připojit více výstupů vyhodnocení.

Nejnovější metriky vyhodnocení si můžete prohlédnout na levém panelu Přehled.

Základní přehled

Na pravé straně nabízí přehled celkové informace o spuštění, jako je například počet spuštění datového bodu, celkový počet tokenů a doba trvání spuštění.

Nejnovější agregované metriky spuštění vyhodnocení se tady zobrazují ve výchozím nastavení. Pokud chcete přeskočit k zobrazení samotného zkušebního spuštění, můžete vybrat Zobrazit spuštění vyhodnocení.

Tady můžete rozbalit a sbalit přehled a vybrat Zobrazit úplné informace, které vás přesměrují na kartu Přehled vedle karty Výstup, kde obsahuje podrobnější informace o tomto spuštění.

Zahájení nového kola hodnocení

Pokud jste už dokončili dávkové spuštění, můžete zahájit další kolo vyhodnocení a odeslat nové spuštění vyhodnocení pro výpočet metrik pro výstupy bez opětovného spuštění toku. To je užitečné a může ušetřit náklady, abyste mohli tok znovu spustit, když:

Nevybrali jste metodu vyhodnocení pro výpočet metrik při odesílání dávkového spuštění a rozhodli jste se to udělat.
Už jste použili metodu vyhodnocení k výpočtu metriky. Pokud chcete vypočítat jinou metriku, můžete zahájit další kolo vyhodnocení.
vaše zkušební spuštění selhalo, ale váš tok úspěšně vygeneroval výstupy. Hodnocení můžete odeslat znovu.

Pokud chcete zahájit další kolo vyhodnocení, můžete vybrat možnost Vyhodnotit .

Po nastavení konfigurace můžete pro toto nové kolo vyhodnocení vybrat Možnost Odeslat . Po odeslání uvidíte v seznamu spuštění toku výzvy nový záznam. Po dokončení zkušebního spuštění můžete zkontrolovat výsledek vyhodnocení na kartě Výstupy na panelu podrobností dávkového spuštění. Abyste viděli jeho výsledek, musíte vybrat nové spuštění vyhodnocení.

Další informace o metrikách počítaných předdefinovanými metodami vyhodnocení najdete v tématu Předdefinované metriky vyhodnocení.

Přehled

Výběrem karty Přehled se zobrazí komplexní informace o spuštění, včetně vlastností spuštění, vstupní datové sady, výstupní datové sady, značek a popisu.

Protokoly

Výběrem karty Protokoly můžete zobrazit protokoly spuštění, které můžou být užitečné pro podrobné ladění chyb spuštění. Soubory protokolů si můžete stáhnout do místního počítače.

Snímek

Výběrem karty Snímek se zobrazí snímek spuštění. Můžete zobrazit DAG vašeho toku. Kromě toho máte možnost klonovat ho a vytvořit nový tok. Můžete ho také nasadit jako online koncový bod.

Kontrola historie dávkového spuštění a porovnání metrik

V některých scénářích upravíte tok tak, aby se zlepšil jeho výkon. Můžete odeslat několik spuštění dávek a porovnat výkon toku s různými verzemi. Můžete také porovnat metriky počítané různými metodami vyhodnocení a zjistit, která metrika je vhodnější pro váš tok.

Pokud chcete zkontrolovat historii dávkového spuštění toku, můžete v pravém horním rohu stránky toku vybrat tlačítko Zobrazit dávkové spuštění . Zobrazí se seznam dávkových spuštění, která jste odeslali pro tento tok.

Výběrem jednotlivých dávkových spuštění můžete zkontrolovat podrobnosti. Můžete také vybrat více dávkových spuštění a vybrat možnost Vizualizovat výstupy a porovnat metriky a výstupy tohoto dávkového spuštění.

Na panelu Vizualizovat výstup zobrazuje tabulka Spuštění a metriky informace o vybraných spuštěních se zvýrazněním. Zobrazí se také další spuštění, která přebírají výstupy vybraných spuštění jako vstup.

V tabulce Výstupy můžete porovnat vybrané dávkové běhy podle jednotlivých řádků vzorku. Výběrem ikony "vizualizace oka" v tabulce Spuštění a metriky se výstupy tohoto spuštění připojí k odpovídajícímu základnímu spuštění.

Vysvětlení předdefinovaných metrik vyhodnocení

V toku výzvy poskytujeme několik předdefinovaných metod vyhodnocení, které vám pomůžou měřit výkon výstupu toku. Každá metoda vyhodnocení vypočítá různé metriky. Nyní poskytujeme devět předdefinovaných metod vyhodnocení, které jsou k dispozici. Stručnou referenci najdete v následující tabulce:

Metoda vyhodnocení	Metriky	Popis	Připojení ion Required	Požadovaný vstup	Hodnota skóre
Vyhodnocení přesnosti klasifikace	Přesnost	Měří výkon klasifikačního systému porovnáním výstupů se základní pravdou.	No	predikce, základní pravda	v rozsahu [0, 1].
Hodnocení podle relevance QnA párové vyhodnocení	Skóre, výhra/ztráta	Vyhodnocuje kvalitu odpovědí vygenerovaných systémem odpovědí na otázky. Zahrnuje přiřazení skóre relevance ke každé odpovědi na základě toho, jak dobře odpovídá uživatelské otázce, porovnává různé odpovědi na základní odpověď a agreguje výsledky tak, aby vytvářely metriky, jako jsou průměrné míry výhry a skóre relevance.	Ano	otázka, odpověď (bez základní pravdy nebo kontextu)	Skóre: 0-100, win/lose: 1/0
Vyhodnocení základnosti QnA	Uzemnění	Měří způsob, jakým jsou předpokládané odpovědi modelu ve vstupním zdroji. I když jsou odpovědi LLM pravdivé, pokud nejsou ověřitelné vůči zdroji, pak jsou neuzemněné.	Ano	otázka, odpověď, kontext (bez základní pravdy)	1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Vyhodnocení podobnosti gpt QnA	Podobnost GPT	Měří podobnost mezi odpověďmi základní pravdy poskytovanou uživatelem a modelem předpovězenou odpovědí pomocí modelu GPT.	Ano	otázka, odpověď, základní pravda (kontext není potřeba)	1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Vyhodnocení relevance QnA	Relevance	Měří, jak relevantní jsou predikované odpovědi modelu na otázky.	Ano	otázka, odpověď, kontext (bez základní pravdy)	1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Hodnocení soudržnosti QnA	Soudržnost	Měří kvalitu všech vět v předpovězené odpovědi modelu a to, jak se přirozeně hodí.	Ano	otázka, odpověď (bez základní pravdy nebo kontextu)	1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Vyhodnocení fluency QnA	Plynulost	Měří, jak gramačně a lingvisticky opraví předpovězenou odpověď modelu.	Ano	otázka, odpověď (bez základní pravdy nebo kontextu)	1 až 5, přičemž 1 je nejhorší a 5 je nejlepší
Vyhodnocení skóre QnA f1	F1 – skóre	Měří poměr počtu sdílených slov mezi predikcí modelu a základní pravdou.	No	otázka, odpověď, základní pravda (kontext není potřeba)	v rozsahu [0, 1].
Vyhodnocení podobnosti QnA Ada	Podobnost Ada	Vypočítá vkládání na úrovni vět (dokumentu) pomocí rozhraní API pro vkládání Ada pro základní pravdu i predikci. Pak vypočítá kosinus podobnost mezi nimi (jedno číslo s plovoucí desetinou čárkou).	Ano	otázka, odpověď, základní pravda (kontext není potřeba)	v rozsahu [0, 1].

Způsoby zlepšení výkonu toku

Po kontrole předdefinovaných metrik z vyhodnocení se můžete pokusit vylepšit výkon toku:

Zkontrolujte výstupní data a vylaďte případné selhání toku.
Upravte tok tak, aby se zlepšil jeho výkon. To zahrnuje mimo jiné:
- Úprava výzvy
- Úprava systémové zprávy
- Úprava parametrů toku
- Úprava logiky toku

Konstrukce výzvy může být obtížná. Poskytujeme úvod, který vám pomůže seznámit se s konceptem vytváření výzvy, která vám pomůže dosáhnout vašeho cíle. Další informace o tom, jak vytvořit výzvu, která vám umožní dosáhnout vašeho cíle, najdete v technických technikách .

Systémová zpráva, někdy označovaná jako metaprompt nebo výzva systému, která se dá použít k řízení chování systému AI a zlepšení výkonu systému. Přečtěte si tento dokument o rozhraní systémových zpráv a doporučeních šablon pro velké jazykové modely (LLMs), kde se dozvíte, jak zlepšit výkon toku pomocí systémových zpráv.

Další informace: Pokyny k vytváření zlatých datových sad používaných pro kontrolu kvality Copilotu

Vytvoření kopírovacího objektu, který používá velké jazykové modely (LLM), obvykle zahrnuje uzemnění modelu ve skutečnosti pomocí zdrojových datových sad. Aby se ale zajistilo, že llmy poskytují nejpřesnější a nejužitečnější odpovědi na dotazy zákazníků, je potřeba "Zlatá datová sada".

Zlatá datová sada je kolekce realistických zákaznických otázek a odborně vytvořených odpovědí. Slouží jako nástroj pro kontrolu kvality pro LLM používané vaším kopírovacím objektem. Zlaté datové sady se nepoužívají k trénování LLM ani vkládání kontextu do výzvy LLM. Místo toho se využívají k posouzení kvality odpovědí vygenerovaných LLM.

Pokud váš scénář zahrnuje kopírovací objekt nebo pokud právě vytváříte vlastní kopírovací objekt, doporučujeme odkazovat na tento konkrétní dokument: Vytváření zlatých datových sad: Pokyny k vytváření zlatých datových sad používaných pro kontrolu kvality Copilotu pro podrobnější pokyny a osvědčené postupy.

Další kroky

V tomto dokumentu jste zjistili, jak odeslat dávkové spuštění a použít integrovanou metodu vyhodnocení k měření kvality výstupu toku. Dozvěděli jste se také, jak zobrazit výsledek vyhodnocení a metriky a jak zahájit nové kolo vyhodnocení s jinou metodou nebo podmnožinou variant. Doufáme, že vám tento dokument pomůže zlepšit výkon toku a dosáhnout vašich cílů pomocí toku výzvy.

Sdílet prostřednictvím

Odeslání dávkového spuštění a vyhodnocení toku

Požadavky

Odeslání dávkového spuštění a použití integrované metody vyhodnocení

Zobrazení výsledku vyhodnocení a metrik

Výstup

Základní výsledek a trasování

Připojit výsledek vyhodnocení a trasování

Základní přehled

Zahájení nového kola hodnocení

Přehled

Protokoly

Snímek

Kontrola historie dávkového spuštění a porovnání metrik

Vysvětlení předdefinovaných metrik vyhodnocení

Způsoby zlepšení výkonu toku

Další informace: Pokyny k vytváření zlatých datových sad používaných pro kontrolu kvality Copilotu

Další kroky

Váš názor

Váš názor

Další materiály