Sdílet prostřednictvím


Kdy použít jemné ladění Azure OpenAI

Při rozhodování o tom, jestli je nebo není správné řešení pro zkoumání konkrétního případu použití, je užitečné znát některé klíčové termíny:

  • Prompt Engineering je technika, která zahrnuje návrh výzev pro modely zpracování přirozeného jazyka. Tento proces zlepšuje přesnost a levnost odpovědí a optimalizuje výkon modelu.
  • Načítání rozšířené generace (RAG) zlepšuje výkon velkého jazykového modelu (LLM) načtením dat z externích zdrojů a začleněním do výzvy. RAG umožňuje firmám dosahovat přizpůsobených řešení při zachování relevance dat a optimalizaci nákladů.
  • Vyladění přetrénuje existující rozsáhlý jazykový model pomocí ukázkových dat, což vede k vytvoření nového "vlastního" velkého jazykového modelu optimalizovaného pomocí uvedených příkladů.

Co je vyladění pomocí Azure OpenAI?

Když mluvíme o jemném ladění, opravdu myslíme pod dohledem jemné ladění, ne nepřetržitý pre-trénink nebo výztužné Učení prostřednictvím lidské zpětné vazby (RLHF). Vyladění pod dohledem odkazuje na proces opětovného trénování předem natrénovaných modelů u konkrétních datových sad, obvykle ke zlepšení výkonu modelu u konkrétních úloh nebo k zavedení informací, které nebyly dobře reprezentovány, když byl základní model původně natrénován.

Vyladění je pokročilá technika, která vyžaduje správné použití odborných znalostí. Následující otázky vám pomůžou vyhodnotit, jestli jste připraveni na vyladění a jak dobře jste si proces promysleli. Pomocí těchto postupů můžete provést další kroky nebo identifikovat další přístupy, které by mohly být vhodnější.

Proč chcete model vyladit?

  • Měli byste být schopni jasně vyjádřit konkrétní případ použití pro vyladění a identifikaci modelu , který chcete doladit.
  • Mezi vhodné případy použití pro vyladění patří řízení modelu pro výstup obsahu v určitém a přizpůsobeném stylu, tónu nebo formátu nebo ve scénářích, ve kterých jsou informace potřebné ke ztlumení modelu příliš dlouhé nebo složité, aby se vešly do okna výzvy.

Běžné známky, které ještě nemusí být připravené k vyladění:

  • Žádný jasný případ použití pro jemné ladění nebo neschopnost vyjádřit mnohem více než "Chci zlepšit model".
  • Pokud jako hlavní motivátor identifikujete náklady, postupujte opatrně. Vyladění může snížit náklady na určité případy použití zkrácením výzev nebo umožněním použití menšího modelu, ale pro trénování je vyšší počáteční náklady a budete muset zaplatit za hostování vlastního modelu. Další informace o nákladech na vyladění Azure OpenAI najdete na stránce s cenami.
  • Pokud chcete do modelu přidat znalosti z domény, měli byste začít načítáním rozšířené generace (RAG) s funkcemi, jako je Azure OpenAI , na vašich datech nebo vkládání. Často je to levnější, přizpůsobitelnější a potenciálně efektivnější možnost v závislosti na případu použití a datech.

Co jste zatím zkoušeli?

Vyladění je pokročilá funkce, nikoli výchozí bod vaší cesty k generování umělé inteligence. Už byste měli být obeznámeni se základy používání rozsáhlých jazykových modelů (LLM). Měli byste začít vyhodnocením výkonu základního modelu pomocí výzev a/nebo načtení rozšířené generace (RAG), abyste získali směrný plán výkonu.

Základní hodnoty výkonu bez vyladění jsou nezbytné pro zjištění, jestli má vyladění modelu lepší výkon. Vyladění chybnými daty zhorší základní model, ale bez směrného plánu je těžké rozpoznat regrese.

Pokud jste připraveni na vyladění:

  • Měly by být schopny prokázat důkazy a znalosti přístupů založených na prompt engineering a RAG.
  • Můžete sdílet konkrétní zkušenosti a výzvy s jinými technikami než vyladěním, které se už pro váš případ použití vyzkoušely.
  • Pokud je to možné, potřebujete mít kvantitativní hodnocení základního výkonu.

Běžné známky, které ještě nemusí být připravené k vyladění:

  • Začínáme s vyladěním, aniž byste otestovali jiné techniky.
  • Nedostatek znalostí nebo porozumění tomu, jak se vyladění týká konkrétně velkých jazykových modelů (LLM).
  • Žádná měření srovnávacích testů k vyhodnocení jemného ladění.

Co nefunguje s alternativními přístupy?

Porozumění tomu, kde je příprava výzvy krátká, by měla poskytnout pokyny, jak se lépe doladit. Dochází k selhání základního modelu u hraničních případů nebo výjimek? Není základní model konzistentně poskytovat výstup ve správném formátu a nemůžete do kontextového okna umístit dostatek příkladů, abyste ho mohli opravit?

Příklady selhání se základním modelem a technikou výzvy vám pomůžou identifikovat data, která potřebují ke shromažďování pro vyladění a jak byste měli vyhodnotit model s vyladěním.

Tady je příklad: Zákazník chtěl použít GPT-3.5-Turbo k převodu otázek v přirozeném jazyce na dotazy v konkrétním nestandardním dotazovacím jazyce. V příkazovém řádku poskytli pokyny (Vždy vrátit GQL) a použili RAG k načtení schématu databáze. Syntaxe ale nebyla vždy správná a často selhala u hraničních případů. Shromáždili tisíce příkladů otázek v přirozeném jazyce a ekvivalentní dotazy pro svou databázi, včetně případů, kdy se model předtím nezdařil – a tato data použila k vyladění modelu. Kombinace nového jemně vyladěného modelu s jejich inženýrovanými výzvami a načtením přinesla přesnost výstupů modelu až do přijatelných standardů pro použití.

Pokud jste připraveni na vyladění:

  • Podívejte se na jasné příklady toho, jak jste přistupovali k výzvám v alternativních přístupech, a na to, co bylo otestováno, co je možné, aby se zlepšil výkon.
  • Zjistili jste nedostatky pomocí základního modelu, jako je nekonzistentní výkon v hraničních případech, nemožnost přizpůsobit dostatek výzev na snímku v kontextovém okně, aby se model osvojil, vysoká latence atd.

Běžné známky, které ještě nemusí být připravené k vyladění:

  • Nedostatek znalostí z modelu nebo zdroje dat
  • Nemožnost najít správná data pro obsluhu modelu.

Jaká data použijete k vyladění?

I v případě skvělého použití je vyladění pouze tak dobré jako kvalita dat, která můžete poskytnout. Musíte být ochotni investovat čas a úsilí na vyladění práce. Různé modely budou vyžadovat různé objemy dat, ale často potřebujete poskytovat poměrně velké množství vysoce kvalitních kurátorovaných dat.

Dalším důležitým bodem je i vysoce kvalitní data, pokud vaše data nejsou v potřebném formátu pro vyladění, budete muset potvrdit technické prostředky, aby bylo možné data správně formátovat.

Data Babbage-002 & Davinci-002 GPT-35-Turbo
Objem Tisíce příkladů Tisíce příkladů
Formát Výzva/dokončení Konverzační chat

Pokud jste připraveni na vyladění:

  • Identifikovali jsme datovou sadu pro vyladění.
  • Datová sada je ve vhodném formátu pro trénování.
  • K zajištění kvality datové sady byla použita určitá úroveň curace.

Běžné známky, které ještě nemusí být připravené k vyladění:

  • Datová sada ještě nebyla identifikována.
  • Formát datové sady neodpovídá modelu, který chcete vyladit.

Jak změříte kvalitu vyladěného modelu?

Neexistuje jediná správná odpověď na tuto otázku, ale měli byste mít jasně definované cíle pro to, jak úspěch s vyladěním vypadá. V ideálním případě by to nemělo být jen kvalitativní, ale mělo by zahrnovat kvantitativní míry úspěchu, jako je využití sady blokovaných dat pro ověření, stejně jako testování přijetí uživatele nebo testování a testování jemně vyladěného modelu na základě základního modelu.

Další kroky