次の方法で共有


トレーニングとモデリングとは

モデルは、特定の言語ペアの翻訳を提供するシステムです。 適切なトレーニングの成果がモデルです。 モデルをトレーニングするには、互いに重複しない 3 種類のドキュメント (トレーニング、チューニング、テスト) が必要です。 ディクショナリ ドキュメント タイプを提供することもできます。 詳しくは、文のアラインに関する記事をご覧ください。

トレーニングをキューに追加するときにトレーニング データのみ入力した場合、チューニングとテストのデータは、カスタム翻訳ツールによって自動的にアセンブルされます。 トレーニング ドキュメントから文のランダムなサブセットが使用され、これらの文はトレーニング データ自体から除外されます。

Custom Translator のトレーニング ドキュメント タイプ

トレーニング セットに含まれているドキュメントは、Custom Translator によってモデル構築のベースとして使用されます。 トレーニングの実行中、これらのドキュメントに存在する文がアライン (またはペアリング) されます。 トレーニング ドキュメントのセットは自由に構成することができます。 1 つのモデルには、関連性がほとんどないと考えられるドキュメントを含めることができます。 さらに、別のモデルではそれらを除外することによって、BLEU (Bilingual Evaluation Understudy) スコアへの影響を確認します。 チューニング セットとテスト セットを一定に保つ限り、トレーニング セットの構成は自由に試すことができます。 このアプローチは、お客様の翻訳システムの品質を調整する方法として効果的です。

プロジェクト内で複数のトレーニングを実行して、すべてのトレーニングを対象に BLEU スコアを比較することができます。 比較のために複数回トレーニングを実行するときは必ず、毎回同じチューニング データとテスト データを指定してください。 また結果は、[Testing](テスト) タブから手動で検証するようにしてください。

Custom Translator のチューニング ドキュメント タイプ

このセットに含まれている並列ドキュメントは、最適な結果が得られるよう翻訳システムをチューニングするために Custom Translator によって使用されます。

チューニング データは、翻訳システムのあらゆるパラメーターと重みを最適な値に調整する目的でトレーニング中に使用されます。 チューニング データは慎重に選んでください。チューニング データは、将来翻訳しようとするドキュメントの内容を代表するものであることが必要です。 チューニング データは、生成される翻訳の品質に大きく影響します。 チューニングを行うことで、お客様がチューニング データに含めたサンプルに最も近い翻訳が、翻訳システムによって提供されるようになります。 チューニング データに 2,500 を超える文は必要ありません。 最適な翻訳品質を確保するために、最も代表的な文を厳選して、チューニング セットを手動で選ぶことをお勧めします。

チューニング セットを作成する際は、意味を成す代表的な長さの文を、将来的に翻訳対象となる文から選んでください。 翻訳対象となる語句を、将来的に想定される翻訳に近い分布で含んだ文を選んでください。 実際には、文の長さが 7 語から 10 語のときに最適な結果が得られます。 こうした文には、語形変化を示すのに十分なコンテキストが含まれており、また句の長さも、意味を備えつつ、複雑になりすぎることがないためです。

チューニング セットに使用すべき文の種類を適切に言い表すと、散文、つまり実際の流暢な文章です。 表のセル、詩、箇条書き、句読点のみの文、数字は、文 (通常の言語) としてふさわしくありません。

お客様がチューニング データを手動で選択する場合は、そこにトレーニングやテストのデータと同じ文が混ざらないようにしてください。 チューニング データは翻訳の品質に大きく影響するため、文は慎重に選ぶようにしてください。

チューニング データに何を選べばよいかわからない場合は、単にトレーニング データを選択すれば、カスタム翻訳ツールによって自動的にチューニング データが選択されます。 カスタム翻訳ツールによってチューニング データが自動的に選択される際には、バイリンガルのトレーニング ドキュメントから文のサブセットがランダムに使用され、それらの文がトレーニング マテリアルそのものから除外されます。

Custom Translator のテスト データセット

テスト セットに含まれている並列ドキュメントは、BLEU (Bilingual Evaluation Understudy) スコアの計算に使用されます。 このスコアは、お客様の翻訳システムの品質を示します。 実際、このトレーニングの結果として翻訳システムから得られた翻訳がテスト データ セット内の基準文とどの程度一致しているかは、このスコアから判別できます。

BLEU スコアは、自動翻訳と基準翻訳との間の差分を測定した値です。 その値の範囲は 0 から 100 です。 スコア 0 は、基準文に含まれる語が、1 つも翻訳に出現しないことを示します。 スコア 100 は、自動翻訳が基準文と完全に一致すること、つまり同じ語がまったく同じ位置に出現することを示します。 お客様が受け取るスコアは、テスト データの文すべての BLEU スコアを平均した値です。

テスト データには、ターゲット言語の文が、ソースとターゲットのペアの対応するソース言語の文に対して最も望ましい翻訳であるような並列ドキュメントを含める必要があります。 チューニング データを構成するために使用したのと同じ基準を使用してかまいません。 ただし、テスト データは翻訳システムの品質に影響を与えず、BLEU スコアを生成するためにのみ使用されます。

テスト データに 2,500 を超える文は必要ありません。 お客様がシステムにテスト セットを自動的に選択させる場合は、バイリンガルのトレーニング ドキュメントから文のサブセットがランダムに使用され、それらの文がトレーニング マテリアルそのものから除外されます。

モデル内の [テスト] タブに移動すると、テスト セットのカスタム翻訳を表示したり、それらをお客様のテスト セット内の翻訳と比較したりすることができます。

次の手順