Odeslání dávkového spuštění a vyhodnocení toku

Důležité

Některé funkce popsané v tomto článku můžou být dostupné jenom ve verzi Preview. Tato verze Preview je poskytována bez smlouvy o úrovni služeb a nedoporučujeme ji pro produkční úlohy. Některé funkce se nemusí podporovat nebo mohou mít omezené možnosti. Další informace najdete v dodatečných podmínkách použití pro verze Preview v Microsoft Azure.

Pokud chcete vyhodnotit, jak dobře tok funguje s velkou datovou sadou, můžete v toku výzvy odeslat dávkové spuštění a použít metodu vyhodnocení.

V tomto článku se naučíte:

  • Odeslání dávkového spuštění a použití metody vyhodnocení
  • Zobrazení výsledku vyhodnocení a metrik
  • Zahájení nového kola hodnocení
  • Kontrola historie dávkového spuštění a porovnání metrik
  • Vysvětlení předdefinovaných metod vyhodnocení
  • Způsoby zlepšení výkonu toku

Požadavky

Pro dávkové spuštění a použití metody vyhodnocení musíte mít následující připraveno:

  • Testovací datová sada pro dávkové spuštění Vaše datová sada by měla být v jednom z těchto formátů: .csv, .tsvnebo .jsonl. Vaše data by také měla obsahovat hlavičky, které odpovídají vstupním názvům vašeho toku. Pokud vstupy toku obsahují složitou strukturu, jako je seznam nebo slovník, použijte jsonl k reprezentaci dat formát.
  • Dostupná výpočetní relace pro spuštění dávky. Výpočetní relace je cloudový prostředek, který spouští váš tok a generuje výstupy. Další informace o výpočetních relacích najdete v tématu Výpočetní relace.

Odeslání dávkového spuštění a použití metody vyhodnocení

Dávkové spuštění umožňuje spustit tok s velkou datovou sadou a vygenerovat výstupy pro každý řádek dat. Můžete také zvolit metodu vyhodnocení pro porovnání výstupu toku s určitými kritérii a cíli. Metoda vyhodnocení je speciální typ toku, který vypočítá metriky pro výstup toku na základě různých aspektů. Spuštění vyhodnocení se provede, aby se vypočítaly metriky při odeslání pomocí dávkového spuštění.

Pokud chcete spustit dávkové spuštění s vyhodnocením, můžete vybrat tlačítko Vyhodnotitvlastní vyhodnocení. Výběrem možnosti Vlastní vyhodnocení můžete odeslat dávkové spuštění s metodami vyhodnocení nebo odeslat dávkové spuštění bez vyhodnocení toku.

Tento snímek obrazovky ukazuje tlačítko triggeru dávkového spuštění a vyhodnocení.

Nejprve se zobrazí výzva, abyste své dávce dali popisný a rozpoznatelný název. Do dávkového spuštění můžete také napsat popis a přidat značky (páry klíč-hodnota). Po dokončení konfigurace pokračujte výběrem možnosti Další .

Tento snímek obrazovky ukazuje základní nastavení vlastního vyhodnocení.

Zadruhé musíte vybrat nebo nahrát datovou sadu, pomocí které chcete tok otestovat. K provedení tohoto dávkového spuštění musíte také vybrat dostupnou výpočetní relaci.

Tok výzvy také podporuje mapování vstupu toku na konkrétní datový sloupec v datové sadě. To znamená, že můžete přiřadit sloupec k určitému vstupu. Sloupec můžete přiřadit ke vstupu odkazováním na ${data.XXX} formát. Pokud chcete přiřadit konstantní hodnotu vstupu, můžete tuto hodnotu zadat přímo.

Tento snímek obrazovky ukazuje nastavení dávkového spuštění vlastního vyhodnocení.

V dalším kroku se pak můžete rozhodnout použít metodu vyhodnocení k ověření výkonu tohoto toku. Pokud nechcete použít žádnou metodu vyhodnocení nebo vypočítat metriky, můžete tento krok přeskočit přímo výběrem tlačítka Další . Jinak pokud chcete spustit dávkové spuštění s vyhodnocením, můžete vybrat jednu nebo více metod vyhodnocení. Vyhodnocení se spustí po dokončení dávkového spuštění. Po dokončení dávkového spuštění můžete také spustit další kolo vyhodnocení. Další informace o tom, jak zahájit nové kolo vyhodnocení, najdete v tématu Zahájení nového kola vyhodnocení.

Tento snímek obrazovky ukazuje, jak vybrat metody vyhodnocení.

V další části mapování vstupu potřebujete zadat zdroje vstupních dat potřebných pro metodu vyhodnocení. Například sloupec základní pravdy může pocházet z datové sady. Ve výchozím nastavení používá vyhodnocení stejnou datovou sadu jako testovací datová sada poskytnutá testovanému spuštění. Pokud jsou ale odpovídající popisky nebo cílové hodnoty základní pravdy v jiné datové sadě, můžete na tuto datovou sadu snadno přepnout.

  • Pokud zdroj dat pochází z výstupu spuštění, je zdroj označen jako ${run.output.[ OutputName]}
  • Pokud je zdroj dat z testovací datové sady, je zdroj označený jako ${data.[ ColumnName]}

Tento snímek obrazovky ukazuje, jak nakonfigurovat nastavení vyhodnocení, včetně mapování vstupu a připojení.

Poznámka:

Pokud vaše vyhodnocení nevyžaduje data z datové sady, nemusíte odkazovat na žádné sloupce datové sady ve vstupní části mapování, což znamená, že výběr datové sady je volitelná konfigurace. Výběr datové sady neovlivní výsledek vyhodnocení.

Pokud metoda vyhodnocení používá k měření výkonu odpovědi toku velké jazykové modely (LLM), musíte také nastavit připojení pro uzly LLM v metodách vyhodnocení.

Pak můžete výběrem možnosti Další zkontrolovat nastavení a výběrem možnosti Odeslat spustit dávkové spuštění s vyhodnocením.

Zobrazení výsledku vyhodnocení a metrik

Po odeslání najdete odeslané dávkové spuštění na kartě seznam spuštění na stránce toku výzvy. Vyberte spuštění a přejděte na stránku výsledků spuštění.

Na stránce podrobností o spuštění můžete vybrat Podrobnosti a zkontrolovat podrobnosti tohoto dávkového spuštění.

Výstup

Základní výsledek a trasování

Tím se nejprve přesměruje na kartu Výstup a zobrazí se vstupy a výstupy řádek po řádku. Na stránce s kartou Výstup se zobrazí seznam výsledků, včetně ID řádku, vstupu, výstupu, stavu, systémových metrik a času vytvoření.

U každého řádku můžete výběrem možnosti Zobrazit trasování sledovat a ladit konkrétní testovací případ na stránce s podrobným trasováním.

Tento snímek obrazovky ukazuje výstup dávkového spuštění.

 Snímek obrazovky s podrobnostmi trasování

Připojit výsledek vyhodnocení a trasování

Výběr výstupu vyhodnocení připojení umožňuje vybrat související spuštění vyhodnocení a na konci tabulky se zobrazí připojené sloupce zobrazující výsledek vyhodnocení pro každý řádek dat. K porovnání je možné připojit více výstupů vyhodnocení.

Snímek obrazovky s výstupy dávkového spuštění pro připojení výstupu vyhodnocení

Nejnovější metriky vyhodnocení si můžete prohlédnout na levém panelu Přehled.

Základní přehled

Na pravé straně nabízí přehled celkové informace o spuštění, jako je například počet spuštění datového bodu, celkový počet tokenů a doba trvání spuštění.

Nejnovější agregované metriky spuštění vyhodnocení se tady zobrazují ve výchozím nastavení. Pokud chcete přeskočit k zobrazení samotného zkušebního spuštění, můžete vybrat Zobrazit spuštění vyhodnocení.

Snímek obrazovky s informacemi o přehledu dávkového spuštění na výstupní stránce

Tady můžete rozbalit a sbalit přehled a vybrat Možnost Zobrazit úplné informace, které vás přesměrují na kartu Přehled vedle karty Výstup, kde obsahuje podrobnější informace o tomto spuštění.

Zahájení nového kola hodnocení

Pokud jste už dokončili dávkové spuštění, můžete zahájit další kolo vyhodnocení a odeslat nové spuštění vyhodnocení pro výpočet metrik pro výstupy bez opětovného spuštění toku. To je užitečné a může ušetřit náklady, abyste mohli tok znovu spustit, když:

  • Nevybrali jste metodu vyhodnocení pro výpočet metrik při odesílání dávkového spuštění a rozhodli jste se to udělat teď.
  • Metodu vyhodnocení jste už použili k výpočtu metriky. Pokud chcete vypočítat jinou metriku, můžete zahájit další kolo vyhodnocení.
  • Vaše zkušební spuštění selhalo, ale váš tok úspěšně vygeneroval výstupy. Hodnocení můžete odeslat znovu.

Můžete přejít na kartu Spuštění toku výzvy. Pak přejděte na stránku podrobností o dávkovém spuštění a výběrem možnosti Vyhodnotit spusťte další kolo vyhodnocení.

Tento snímek obrazovky ukazuje, jak spustit nové vyhodnocení na základě dávkového spuštění.

Po nastavení konfigurace můžete pro toto nové kolo vyhodnocení vybrat Možnost Odeslat . Po odeslání uvidíte v seznamu spuštění toku výzvy nový záznam. Po dokončení zkušebního spuštění můžete zkontrolovat výsledek vyhodnocení na kartě Výstupy na panelu podrobností dávkového spuštění. Abyste viděli jeho výsledek, musíte vybrat nové spuštění vyhodnocení.

Další informace o metrikách počítaných předdefinovanými metodami vyhodnocení najdete v tématu Předdefinované metody vyhodnocení.

Přehled

Výběrem karty Přehled se zobrazí komplexní informace o spuštění, včetně vlastností spuštění, vstupní datové sady, výstupní datové sady, značek a popisu.

Protokoly

Výběrem karty Protokoly můžete zobrazit protokoly spuštění, které můžou být užitečné pro podrobné ladění chyb spuštění. Soubory protokolů si můžete stáhnout do místního počítače.

Snímek

Výběrem karty Snímek se zobrazí snímek spuštění. Můžete zobrazit DAG vašeho toku. Kromě toho máte možnost klonovat ho a vytvořit nový tok. Můžete ho také nasadit jako online koncový bod.

Snímek obrazovky se snímkem dávkového spuštění

Kontrola historie dávkového spuštění a porovnání metrik

V některých scénářích upravíte tok tak, aby se zlepšil jeho výkon. Můžete odeslat více než jedno dávkové spuštění a porovnat výkon toku s různými verzemi. Můžete také porovnat metriky počítané různými metodami vyhodnocení a zjistit, která metrika je vhodnější pro váš tok.

Pokud chcete zkontrolovat historii dávkového spuštění toku, můžete na stránce toku vybrat tlačítko Zobrazit dávkové spuštění . Zobrazí se seznam dávkových spuštění, která jste odeslali pro tento tok.

Tento snímek obrazovky ukazuje tlačítko vizualizovat výstup na stránce seznamu spuštění.

Výběrem jednotlivých dávkových spuštění můžete zkontrolovat podrobnosti. Můžete také vybrat více dávkových spuštění a vybrat na výstupech Vizualizovat a porovnat metriky a výstupy dávkových spuštění.

Na panelu Vizualizovat výstup zobrazuje tabulka Spuštění a metriky informace o vybraných spuštěních se zvýrazněním. Zobrazí se také další spuštění, která přebírají výstupy vybraných spuštění jako vstup.

V tabulce Výstupy můžete porovnat vybrané dávkové běhy podle jednotlivých řádků vzorku. Výběrem ikony "vizualizace oka" v tabulce Spuštění a metriky se výstupy tohoto spuštění připojí k odpovídajícímu základnímu spuštění.

Vysvětlení předdefinovaných metod vyhodnocení

V toku výzvy poskytujeme několik předdefinovaných metod vyhodnocení, které vám pomůžou měřit výkon výstupu toku. Každá metoda vyhodnocení vypočítá různé metriky. Seznam předdefinovaných metod vyhodnocení a jejich popisů najdete v následující tabulce.

Metoda vyhodnocení Metriky Popis Připojení ion Required Požadovaný vstup Hodnota skóre
Vyhodnocení přesnosti klasifikace Přesnost Měří výkon klasifikačního systému porovnáním výstupů se základní pravdou. No predikce, základní pravda v rozsahu [0, 1].
Hodnocení podle relevance QnA párové vyhodnocení Skóre, výhra/ztráta Vyhodnocuje kvalitu odpovědí vygenerovaných systémem odpovědí na otázky. Zahrnuje přiřazení skóre relevance ke každé odpovědi na základě toho, jak dobře odpovídá uživatelské otázce, porovnává různé odpovědi na základní odpověď a agreguje výsledky tak, aby vytvářely metriky, jako jsou průměrné míry výhry a skóre relevance. Ano otázka, odpověď (bez základní pravdy nebo kontextu) Skóre: 0-100, win/lose: 1/0
Vyhodnocení základnosti QnA Uzemnění Měří způsob, jakým jsou předpokládané odpovědi modelu ve vstupním zdroji. I když jsou odpovědi LLM pravdivé, pokud nejsou ověřitelné vůči zdroji, pak jsou neuzemněné. Ano otázka, odpověď, kontext (bez základní pravdy) 1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Vyhodnocení podobnosti gpt QnA Podobnost GPT Měří podobnost mezi odpověďmi základní pravdy poskytovanou uživatelem a modelem předpovězenou odpovědí pomocí modelu GPT. Ano otázka, odpověď, základní pravda (kontext není potřeba) v rozsahu [0, 1].
Vyhodnocení relevance QnA Relevance Měří, jak relevantní jsou predikované odpovědi modelu na otázky. Ano otázka, odpověď, kontext (bez základní pravdy) 1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Hodnocení soudržnosti QnA Soudržnost Měří kvalitu všech vět v předpovězené odpovědi modelu a to, jak se přirozeně hodí. Ano otázka, odpověď (bez základní pravdy nebo kontextu) 1 až 5, přičemž 1 je nejhorší a 5 je nejlepší.
Vyhodnocení fluency QnA Plynulost Měří, jak gramačně a lingvisticky opraví předpovězenou odpověď modelu. Ano otázka, odpověď (bez základní pravdy nebo kontextu) 1 až 5, přičemž 1 je nejhorší a 5 je nejlepší
Vyhodnocení skóre QnA f1 F1 – skóre Měří poměr počtu sdílených slov mezi predikcí modelu a základní pravdou. No otázka, odpověď, základní pravda (kontext není potřeba) v rozsahu [0, 1].
Vyhodnocení podobnosti QnA Ada Podobnost Ada Vypočítá vkládání na úrovni vět (dokumentu) pomocí rozhraní API pro vkládání Ada pro základní pravdu i predikci. Pak vypočítá kosinus podobnost mezi nimi (jedno číslo s plovoucí desetinou čárkou). Ano otázka, odpověď, základní pravda (kontext není potřeba) v rozsahu [0, 1].

Způsoby zlepšení výkonu toku

Po kontrole předdefinovaných metod z vyhodnocení se můžete pokusit zvýšit výkon toku takto:

  • Zkontrolujte výstupní data a vylaďte případné selhání toku.
  • Upravte tok tak, aby se zlepšil jeho výkon. To zahrnuje mimo jiné:
    • Úprava výzvy
    • Úprava systémové zprávy
    • Úprava parametrů toku
    • Úprava logiky toku

Další informace o tom, jak vytvořit výzvu, která dokáže dosáhnout vašeho cíle, najdete v tématu Úvod k výzvě k vytváření výzvy, technikám přípravy výzev a doporučením architektury systémových zpráv a šablon pro velké jazykové modely (LLM) .

V tomto dokumentu jste zjistili, jak odeslat dávkové spuštění a použít integrovanou metodu vyhodnocení k měření kvality výstupu toku. Dozvěděli jste se také, jak zobrazit výsledek vyhodnocení a metriky a jak zahájit nové kolo vyhodnocení s jinou metodou nebo podmnožinou variant. Doufáme, že vám tento dokument pomůže zlepšit výkon toku a dosáhnout vašich cílů pomocí toku výzvy.

Další kroky