カスタム モデルをトレーニングする

モデルにより、特定の言語ペアの翻訳が提供されます。 適切なトレーニングの成果がモデルです。 カスタム モデルをトレーニングするには、互いに重複しない 3 種類のドキュメント (トレーニング、チューニング、テスト) が必要です。 トレーニングをキューに追加するときにトレーニング データのみ入力した場合、チューニングとテストのデータは、Custom Translator によって自動的にアセンブルされます。 トレーニング ドキュメントから文のランダムなサブセットが使用され、これらの文がトレーニング データ自体から除外されます。 完全なモデルをトレーニングするには、少なくとも 1 万の並列トレーニングの文章が必要です。

モデルの作成

  1. [モデルのトレーニング] ブレードを選択します。

  2. [モデル名]を入力します。

  3. 既定の [完全トレーニング] を選択するか、[辞書限定トレーニング] を選択します。

    注意

    完全トレーニングでは、すべてのアップロードされたドキュメントの種類が表示されます。 辞書限定トレーニングでは、辞書のドキュメントのみが表示されます。

  4. [ドキュメントの選択] で、モデルのトレーニングに使用するドキュメント、たとえば sample-English-German を選択し、選択した文の数に関連するトレーニング コストを確認します。

  5. [Train now] (今すぐトレーニング) を選択します。

  6. [Train] (トレーニング) を選択して確定します。

    注意

    [通知] には、[Submitting data] (データを送信中) の状態など、進行中のモデルのトレーニングが表示されます。 モデルのトレーニングには、選択した文の数に応じて数時間かかります。

    [モデルのトレーニング] ブレードを示すスクリーンショット。

辞書限定トレーニングを選択する場合

より良い結果を得るために、トレーニング データを使用してシステムに学習させることをお勧めします。 ただし、最小要件を満たす 1 万の並列文がない場合、または文と複合名詞をそのままでレンダリングする必要がある場合は、辞書限定トレーニングを使用します。 そのモデルは通常、完全トレーニングよりもはるかに速くトレーニングが完了します。 結果として得られるモデルでは、追加した辞書に加えて、翻訳用のベースライン モデルが使用されます。 BLEU のスコアは表示されず、テスト レポートも受け取りません。

注意

カスタム翻訳ツールでは、辞書ファイルで文章の位置合わせが行われません。 そのため、辞書ドキュメントでソースとターゲットに同数の句および文が存在していること、また正確に位置が合わせられていることが重要です。 これが行われていない場合、ドキュメントのアップロードは失敗します。

モデルの詳細

  1. モデルのトレーニングが成功したら、[モデルの詳細] ブレードを選択します。

  2. モデル名を選択して、トレーニングの日付/時刻、トレーニングの合計時間、トレーニング、チューニング、テスト、辞書に使用される文の数、システムによってテストセットとチューニング セットが生成されたかどうかを確認します。 翻訳要求を行うには、Category ID を使用します。

  3. モデルの BLEU スコアを評価します。 テスト セットの確認: BLEU スコアはカスタム モデルのスコアで、ベースライン BLEU はカスタマイズに使用された事前トレーニング済みのベースライン モデルです。 BLEU スコアが高いほど、カスタム モデルを使用した翻訳品質が高くなります。

    モデルの詳細フィールドを示すスクリーンショット。

重複するモデル

  1. [モデルの詳細] ブレードを選択します。

  2. モデル名の上にマウス ポインターを置き、[選択] ボタンをオンにします。

  3. [重複] を選択します。

  4. [新しいモデル名] を入力します。

  5. さらにデータを選択またはアップロードしない場合は、[すぐにトレーニング] をオンにします。それ以外の場合は、[下書きとして保存] をオンにします。

  6. [保存] を選択する

    注意

    モデルを Draft として保存すると、[モデルの詳細]Draft 状態のモデル名で更新されます。

    ドキュメントをさらに追加するには、モデル名を選択し、前の Create model セクションに従います。

    [重複するモデル] ブレードを示すスクリーンショット。

次の手順