Condividi tramite


Testare e valutare i modelli di riepilogo personalizzati

Quando si crea il modello di riepilogo personalizzato, si vuole assicurarsi di terminare con un modello di qualità. È necessario testare e valutare il modello di riepilogo personalizzato per assicurarsi che funzioni correttamente.

Linee guida sui set di test e training suddivisi

Una fase importante della creazione di un modello di riepilogo personalizzato convalida che il modello creato sia soddisfacente in termini di qualità e genera riepiloghi come previsto. Tale processo di convalida deve essere eseguito con un set separato di esempi (denominati esempi di test) rispetto agli esempi usati per il training. Quando si suddivideno i dati disponibili in training e test, è consigliabile seguire tre linee guida importanti:

  • Dimensioni: per stabilire un'attendibilità sufficiente sulla qualità del modello, il set di test deve essere di dimensioni ragionevoli. Il test del modello in pochi esempi può offrire tempi di valutazione dei risultati fuorvianti. È consigliabile valutare centinaia di esempi. Quando è disponibile un numero elevato di documenti/conversazioni, è consigliabile riservare almeno il 10% di essi per i test.
  • Nessuna sovrapposizione: è fondamentale assicurarsi che lo stesso documento non venga usato contemporaneamente per il training e il test. I test devono essere eseguiti sui documenti che non sono mai stati usati per il training in qualsiasi fase, altrimenti la qualità del modello sarà altamente sovrastimata.
  • Diversità: il set di test deve coprire il maggior numero possibile di caratteristiche di input possibili. Ad esempio, è sempre meglio includere documenti di lunghezza, argomenti, stili, .. and so on. se applicabile. Analogamente per il riepilogo della conversazione, è sempre consigliabile includere conversazioni di diversi turni e numero di relatori.

Linee guida per valutare un modello di riepilogo personalizzato

Quando si valuta un modello personalizzato, è consigliabile usare sia la valutazione automatica che manuale. La valutazione automatica consente di valutare rapidamente la qualità dei riepiloghi prodotti per l'intero set di test, di conseguenza coprendo un'ampia gamma di variazioni di input. Tuttavia, la valutazione automatica fornisce un'approssimazione della qualità e non è sufficiente per stabilire la fiducia nella qualità del modello. È quindi consigliabile controllare i riepiloghi prodotti per il maggior numero possibile di documenti di test.

Valutazione automatica

Attualmente viene usata una metrica denominata ROUGE (Understudy orientata al richiamo per la valutazione di Gisting). Questa tecnica include misure per determinare automaticamente la qualità di un riepilogo confrontandola con i riepiloghi ideali creati dagli esseri umani. Le misure conteggiano il numero di unità sovrapposte, ad esempio n-gram, sequenze di parole e coppie di parole tra il riepilogo generato dal computer da valutare e i riepiloghi ideali. Per altre informazioni su Rouge, vedere la voce ROUGE Wikipedia e la carta sul pacchetto ROUGE.

Valutazione manuale

Quando si controlla manualmente la qualità di un riepilogo, sono disponibili qualità generali di un riepilogo che si consiglia di controllare oltre a eventuali aspettative desiderate che il modello personalizzato sia stato sottoposto a training per rispettare, ad esempio stile, formato o lunghezza. Le qualità generali che consigliamo di controllare sono:

  • Fluency: il riepilogo non deve avere problemi di formattazione, errori di maiuscola o frasi nongrammatiche.
  • Coerenza: il riepilogo deve essere ben strutturato e ben organizzato. Il riepilogo non deve essere solo un heap di informazioni correlate, ma deve creare da frase a frase in un corpo coerente di informazioni su un argomento.
  • Copertura: il riepilogo deve coprire tutte le informazioni importanti nel documento/conversazione.
  • Pertinenza: il riepilogo deve includere solo informazioni importanti dal documento di origine/conversazione senza ridondanza.
  • Allucinazioni: il riepilogo non contiene informazioni sbagliate non supportate dal documento/conversazione di origine.

Per altre informazioni sulla valutazione di riepilogo, vedere l'articolo mit Press su SummEval.