Testování a vyhodnocení vlastních modelů souhrnů

Článek
12/19/2023

Při vytváření vlastního modelu souhrnů chcete mít jistotu, že skončíte s modelem kvality. Potřebujete otestovat a vyhodnotit vlastní model souhrnu, abyste měli jistotu, že funguje dobře.

Pokyny k rozdělené testovací a trénovací sadě

Důležitou fází vytváření přizpůsobeného modelu souhrnů je ověření, že vytvořený model je z hlediska kvality uspokojivý a generuje souhrny podle očekávání. Tento proces ověření musí být proveden se samostatnou sadou příkladů (označovaných jako testovací příklady), než jsou příklady použité pro trénování. Při rozdělení dostupných dat do trénování a testování doporučujeme postupovat podle tří důležitých pokynů:

Velikost: Aby bylo možné zajistit dostatečnou jistotu ohledně kvality modelu, testovací sada by měla mít přiměřenou velikost. Testování modelu na několika příkladech může poskytnout zavádějící časy vyhodnocení výsledků. Doporučujeme vyhodnotit stovky příkladů. Pokud je k dispozici velký počet dokumentů nebo konverzací, doporučujeme pro testování vyhrazovat alespoň 10 % z nich.
Bez překrývání: Je důležité zajistit, aby se stejný dokument současně nepoužíval k trénování a testování. Testování by se mělo provádět u dokumentů, které se nikdy nepoužívaly pro trénování v žádné fázi, jinak bude kvalita modelu vysoce nadhodnocená.
Rozmanitost: Testovací sada by měla zahrnovat co nejvíce možných vstupních charakteristik. Vždy je například lepší zahrnout dokumenty různých délek, témata, styly a .. Atd. pokud je to možné. Podobně jako u souhrnu konverzací je vždy vhodné zahrnout konverzace s různým počtem otočení a počtem mluvčích.

Pokyny k vyhodnocení vlastního modelu souhrnu

Při vyhodnocování vlastního modelu doporučujeme používat současně automatické i ruční vyhodnocení. Automatické hodnocení pomáhá rychle posoudit kvalitu souhrnů vytvořených pro celou testovací sadu, a pokrývá tak širokou škálu vstupních variací. Automatické vyhodnocení ale poskytuje přibližnou kvalitu a samo o sobě nestačí k vytvoření jistoty v kvalitu modelu. Proto doporučujeme také zkontrolovat vytvořené souhrny pro co nejvíce testovacích dokumentů.

Automatické vyhodnocení

V současné době používáme metriku s názvem ROUGE (Recall-Oriented Understudy for Gisting Evaluation). Tato technika zahrnuje míry pro automatické určení kvality souhrnu jeho porovnáním s ideálními souhrny vytvořenými lidmi. Míry spočítají počet překrývajících se jednotek, jako je n-gram, posloupnost slov a dvojice slov mezi vyhodnoceným souhrnem vygenerovaným počítačem a ideálními souhrny. Další informace o souboru Rouge najdete v položce WIKIPEDIA a v dokumentu o balíčku ROUGE.

Ruční vyhodnocení

Když ručně zkontrolujete kvalitu souhrnu, kromě požadovaných očekávání, které byl vlastní model vytrénován, jako je styl, formát nebo délka, doporučujeme zkontrolovat i obecné vlastnosti souhrnu. Doporučujeme zkontrolovat obecné vlastnosti:

Plynulost: Souhrn by neměl mít žádné problémy s formátováním, chyby při psaní velkých písmen ani negrammatickou větu.
Koherence: Souhrn by měl být dobře strukturovaný a dobře uspořádaný. Souhrn by neměl být jen hromadou souvisejících informací, ale měl by se z věty do věty vytvořit ucelený soubor informací o tématu.
Pokrytí: Souhrn by měl obsahovat všechny důležité informace v dokumentu nebo konverzaci.
Relevance: Souhrn by měl obsahovat pouze důležité informace ze zdrojového dokumentu nebo konverzace bez redundance.
Halucinace: Souhrn neobsahuje nesprávné informace, které zdrojový dokument nebo konverzace nepodporují.

Další informace o vyhodnocování souhrnů najdete v článku MIT Press o SummEvalu.

Sdílet prostřednictvím