Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Microsoft 365 Copilot Ladění vytvoří jemně vyladěný model specifický pro konkrétní úlohy na základě specifických znalostí od tvůrce modelu. Výběrem znalostí z interních dokumentů vaší společnosti umožníte modelu naučit se vaši jedinečnou terminologii, styl a postupy.
Výběr znalostí pro funkci Copilot Tuning znamená identifikaci a přípravu správné sady obsahu z vaší organizace, ze které se model učí. Výběr znalostí zahrnuje shromažďování reprezentativních dokumentů, příkladů a pokynů, které zachycují odborné znalosti, které má vyladěný model napodobovat. Právní oddělení by například mohlo vyladit model na vzorech a šablonách z minulosti firmy, takže agent, který model používá, může vypisovat smlouvy ve stylu a terminologii firmy. Čím lépe vybrané znalosti odrážejí vaši doménu a úkol, tím více model produkuje relevantní a vysoce kvalitní výsledky.
V tomto článku si představíme, jak vybrat a připravit znalosti pro ladění Copilotu. Dozvíte se o typech potřebných dokumentů, jejich uspořádání a základních požadavcích (jako jsou minimální vzorky dat a formáty souborů). Pochopením výběru znalostí můžete zajistit, aby byl vyladěný model efektivní a odpovídal vašim potřebám.
Příprava správných znalostí pro ladění
Výběr znalostí je prvním a nejdůležitějším krokem při ladění funkce Copilot. Vysoce kvalitní trénovací datovou sadu byste měli spravovat z nejrelevantního a autoritativního obsahu. Klíčem je poskytnout příklady, které model naučí přesně to, co očekáváte, že bude dělat. Obsah, který zvolíte, závisí na typu úkolu. Funkce Copilot Tuning v současné době podporuje tři scénáře primárních úkolů: odborné otázky & odpověď (Q&A),generování dokumentů a shrnutí dokumentů. Pro každý scénář zvažte následující požadavky:
Podporované formáty souborů a obsah: Všechny úlohy ladění copilotu podporují běžné textové formáty dokumentů. Jako zdrojové materiály můžete použít Word dokumenty (.doc, .docx), soubory HTML (.html, .aspx), soubory Markdown (.md) nebo soubory PDF zpracované pomocí optického rozpoznávání znaků (OCR). Můžete také zahrnout excelové dokumenty (.xls, .xlsx) pro zkušené Q&A. Proces ladění ingestuje textový obsah z těchto souborů. Nepoučuje se z obrázků, vložených tabulek nebo jiných netextových prvků v dokumentech. Ujistěte se, že důležité informace v trénovacích dokumentech jsou v textové podobě. Pokud například souborPDF obsahuje graf, zahrňte do dokumentu textové vysvětlení jeho přehledů.
Počet dokumentů: Při ladění copilotu musíte poskytnout alespoň 20 ukázek (dokumenty pro Q&A a sumarizaci; dvojice vstupně-výstupní pro generování dokumentů). Obvykle jsou ideální stovky nebo tisíce vzorků a můžete zadat maximálně 10 tisíc. Kvalita vzorků je důležitější než nezpracované množství. Důrazně doporučujeme zaměřit se na přípravu dat a najít tolik vysoce kvalitních vzorků, které jsou v souladu s tím, co očekáváte, že váš vyladěný model bude dělat.
Pokyny k modelu: Během procesu konfigurace modelu nástroj Copilot Tuning požádá tvůrce modelu, aby poskytl odpovědi na řadu pokynů k modelu, které systém nasměrují, jak používat vybrané znalosti. Každý typ úkolu má své vlastní otázky týkající se vybraného zdroje znalostí. Připravte si jasné a strukturované odpovědi na každou otázku. Expert Q&A vyžaduje popis dat ve zdroji znalostí a jejich uspořádání. Generování dokumentu vyžaduje, abyste určili, jak se má původní vstup, změny a výstupní koncept dokumentu ve vaší organizaci odkazovat. Sumarizace vyžaduje, abyste určili, jak se mají na souhrny odkazovat. Je důležité, aby tyto informace byly jasné a přesně reprezentovat vaše data, aby systém byl co nejefektivnější.
Omezení a důležité informace
Funkce Copilot Tuning je sice výkonná, ale při výběru znalostí pro doladění je potřeba mít na paměti důležitá omezení a aspekty.
Porozumění pouze textu: Proces vyladění se učí jenom z textového obsahu v dokumentech. Model nerozumí informacím v obrázcích, diagramech, naskenovaných souborech PDF nebo jiných netextových formátech. Podobně složité formátování, jako jsou podrobné tabulky nebo vložené tabulky, se nemusí převést na trénování modelu. Text může být přečtený, ale strukturální význam může být ztracen. Ujistěte se, že veškerá důležitá data jsou vyjádřena ve formě prostého textu ve školicích materiálech nebo v doplňkových pokynech. Například místo toho, abyste očekávali, že se model naučí proceduru z obrázku vývojového diagramu, zapište kroky z tohoto vývojového diagramu v textu.
Rozsah obsahu a kapacita modelu: Velké dokumenty můžou být zkrácené nebo je potřeba je rozdělit na části. Základní modely mají při učení omezení délky kontextu. Pokud máte dlouhé soubory (desítky stránek), zvažte, jestli je veškerý obsah potřebný k ladění. Může být lepší trénovat na více menších, zaměřených dokumentech než na jednom velkém souboru. Zajistěte, aby se příklady soustředily na relevantní části cílového úkolu. Nerelevantní nebo nadbytečný text v trénovacích datech může model zmást. Zároveň se vyhněte trénovacím datům, která jsou příliš krátká nebo nedostatečná.
Statický snímek znalostí: Vyladěný model představuje snímek znalostí v době trénování. Při změně zdrojových dokumentů nebo přidání nových dokumentů se automaticky neaktualizuje. Pokud například vyladíte model podle příručky k zásadám a tato příručka se v příštím čtvrtletí upraví, bude model stále odrážet staré zásady, dokud ji znovu nenatrénujete s novými informacemi. Toto chování se liší od standardního chování Copilotu, které používá rozšířené generování načítání k vyhledávání živých dat v době dotazu. Doladění umožňuje aktualizace v reálném čase, aby se získaly hlubší znalosti. Měli byste naplánovat opakované trénování (nebo alespoň vyhodnocení) modelu pravidelně nebo v případě, že dojde k významným změnám ve vaší doméně.
Důležité
Změny oprávnění dokumentu po trénování neovlivní model okamžitě. Pokud někdo ztratí přístup ke zdrojovému souboru po natrénování modelu, může model stále obsahovat znalosti z daného souboru. Jako správce možná budete muset regulovat přístup k modelu nebo v případě potřeby znovu natrénovat, abyste vyhověli jakýmkoli vyvíjejícím se zásadám přístupu.
Pochopením těchto omezení můžete lépe naplánovat výběr znalostí a nastavit správná očekávání pro vyladěný model. Omezení můžete zmírnit poskytováním dobrých dat a údržbou modelu v průběhu času.
Režijní náklady a údržba
Implementace ladění Copilotu přináší určité režijní náklady z hlediska úsilí a průběžné údržby, které je možné spravovat při správném plánování.
Počáteční úsilí při přípravě dat: Nejpracnější částí je shromažďování a organizace trénovacích znalostí. Naplánujte si čas hledáním vhodných dokumentů a jejich přeformátováním nebo přidáváním poznámek. Můžete například odebrat všechny citlivé oddíly, které by neměly být v rámci trénování, nebo napsat strukturované pokyny ke změnám. Můžete také potřebovat koordinaci s kolegy (například odborníky na doménu, kteří vědí, které dokumenty jsou nejlepšími příklady). Toto počáteční úsilí je zásadní – lepší příprava vede k mnohem menšímu zklamání později. Považujte ho za investici do vytvoření datové sady odborníků.
Iterace a vyhodnocení: Doladění je často iterativní proces. První verze modelu nemusí být dokonalá. Po natrénování modelu věnujte čas jeho testování pomocí realistických výzev. Nechte odborníky na danou problematiku vyhodnotit výstupy. Můžete zjistit, že model je v určitém dílčím tématu nebo formátu slabý. V takovém případě se vraťte a přidejte několik dalších trénovacích příkladů nebo upřesněte pokyny a pak ho znovu natrénujte. Sestavte včas alespoň jeden nebo dva cykly upřesňování. Každý cyklus znamená trochu více přípravy dat a další trénovací běh.