Share via


カスタム要約モデルをテストして評価する

カスタム要約モデルを作成するときは、最終的に高品質なモデルが得られることを確認する必要があります。 カスタム要約モデルをテストして評価し、適切なパフォーマンスを確保する必要があります。

テスト セットとトレーニング セットの分割に関するガイダンス

カスタマイズされた要約モデルの作成における重要なステージは、作成したモデルが品質の面で満足のいくものであり、期待どおりに要約を生成することを検証することです。 その検証プロセスは、トレーニングに使用するサンプルとは別のサンプル セット (テスト サンプルと呼ばれます) で実行する必要があります。 使用可能なデータをトレーニングとテストに分割するときは、次の 3 つの重要なガイドラインに従うことをお勧めします。

  • サイズ: モデルの品質に関して十分な信頼度を確立するには、テスト セットが妥当なサイズである必要があります。 少数のサンプルでモデルをテストすると、誤解を招く可能性のある結果の評価時間を得ることになります。 数百のサンプルを使用して評価することをお勧めします。 多数のドキュメント/会話を利用できる場合は、それらのうち少なくとも 10% をテスト用に確保しておくことをお勧めします。
  • 重複なし: 同じドキュメントがトレーニングとテストに同時に使用されないようにすることが重要です。 テストは、どのステージでもトレーニングに使用されなかったドキュメントに対して実行する必要があります。そうしない場合、モデルの品質が非常に過大評価されます。
  • 多様性: テスト セットは、可能な限り多くの入力特性をカバーする必要があります。 たとえば、さまざまな長さ、トピック、スタイルなどのドキュメントを含めることが 常に最善です (該当する場合)。 会話の要約の場合と同様に、ターン数や話者数が異なる会話を含めることを常にお勧めします。

カスタム要約モデルを評価するためのガイダンス

カスタム モデルを評価する場合は、自動と手動の両方の評価を併せて使用することをお勧めします。 自動評価は、テスト セット全体に対して生成された要約の品質をすばやく判断するのに役立ちます。そのため、幅広い入力のバリエーションがカバーされます。 ただし、自動評価で得られるのはおおよその品質であり、モデルの品質に対する信頼度を確立するには、単独では不十分です。 そのため、生成された要約の検査を、できるだけ多くのテスト ドキュメントに対して行うこともお勧めします。

自動評価

現時点では、ROUGE (Recall-Oriented Understudy for Gisting Evaluation) というメトリックを使用しています。 この手法には、人が作成した理想的な概要と比較して、概要の品質を自動的に判別する尺度が含まれます。 この尺度では、評価対象のコンピューター生成の要約と理想的な要約との間で重複する単位 (n-gram、ワード シーケンス、ワード ペアなど) の数をカウントします。 ROUGE の詳細については、Wikipedia の ROUGE に関する項目と、ROUGE パッケージに関する論文を参照してください。

手動評価

要約の品質を手動で検査する場合は、スタイル、形式、長さなど、カスタム モデルが従うようトレーニングされた望ましい期待のほか、要約の一般的な品質を確認することをお勧めします。 確認することをお勧めする一般的な品質は次のとおりです。

  • 流暢性: 要約には、書式設定の問題、大文字と小文字のエラー、または非文法的な文を含めてはいけません。
  • 一貫性: 要約は適切に構造化され、適切に整理されている必要があります。 要約は、単に関連情報のヒープではなく、一文一文を作成し、トピックに関する情報の一貫した本文とする必要があります。
  • 対象範囲: 要約には、ドキュメント/会話内のすべての重要な情報が含まれている必要があります。
  • 関連性: 要約には、ソース ドキュメント/会話からの冗長でない重要な情報のみを含める必要があります。
  • ハルシネーション: 要約には、ソース ドキュメント/会話でサポートされていない間違った情報は含まれません。

要約評価の詳細については、SummEval に関する MIT Press の記事を参照してください。