トレーニング ドキュメントの作成と管理

カスタム翻訳ツールを使用すると、ビジネス、業界、ドメイン固有の用語やスタイルを反映した翻訳モデルを構築することができます。 カスタム モデルのトレーニングとデプロイは簡単で、プログラミング スキルを必要としません。 カスタム翻訳ツールでは、並列ファイル、翻訳メモリ ファイル、または zip ファイルをアップロードすることができます。

並列ドキュメントは、一方 (ターゲット) がもう一方 (ソース) の翻訳であるドキュメントのペアです。 ペアの一方のドキュメントにはソース言語の文が含まれ、もう一方のドキュメントにはターゲット言語に翻訳されたこれらの文が含まれています。

ドキュメントをアップロードする前に、ドキュメント形式と命名規則に関するガイダンスを検討して、使用するファイル形式がカスタム翻訳ツール内でサポートされていることを確認します。

ドキュメント セットを作成する方法

ドメイン内の品質データの検索は、多くの場合、ユーザーの分類によって異なる困難なタスクです。 使用可能なデータを評価する場合に、次の点を検討できます。

  • 多くの企業には、長年蓄積してきた人間の翻訳者による豊富な翻訳データがあります。 会社に、使用可能な過去の翻訳データがありますか?

  • 膨大な量のモノリンガル データがありますか? モノリンガル データは、1 つの言語だけからなるデータです。 その場合、このデータの翻訳を入手できますか?

  • オンライン ポータルをクロールしてソース文を収集し、ターゲット文を合成できますか?

ドキュメントの種類ごとのトレーニング資料

ソース 実行内容 従うべきルール
バイリンガル トレーニング ドキュメント システムに用語とスタイルを教えます。 寛容に。 ドメイン内の人間による翻訳は、機械翻訳より優れています。 BLEU スコアの向上を試みながら、ドキュメントを追加または削除します。
ドキュメントのチューニング ニューラル機械翻訳パラメーターをトレーニングします。 厳密に。 今後翻訳する予定の文章を適切に代表するように編成します。
テスト ドキュメント BLEU スコアを計算します。 厳密に。 今後翻訳する予定の文章を適切に代表するようにテスト ドキュメントを編成します。
句辞書 常に特定の訳語の使用を強制します。 限定的に。 句辞書では大文字と小文字が区別され、リストされている単語やフレーズが指定された方法で翻訳されます。 多くの場合、句辞書を使用せずに、システムに学習させることをお勧めします。
文辞書 常に特定の訳語の使用を強制します。 厳密に。 文辞書は、大文字と小文字が区別されず、ドメイン内でよく見られる短い文章に適しています。 文辞書との一致が成立するには、送信された文全体がソース辞書の項目と一致する必要があります。 文の一部が一致するだけでは、項目が一致したことにはなりません。

ドキュメントのアップロード方法

ドキュメントの種類は、プロジェクトの作成時に選択された言語ペアに関連付けられます。

  1. カスタム翻訳ツール ポータルにサインインします。 既定のワークスペースが読み込まれ、これまでに作成されたプロジェクトのリストが表示されます。

  2. 目的のプロジェクトを選択します。 既定で、[ドキュメントの管理] ブレードが選択されており、これまでにアップロードされたドキュメントのリストが表示されます。

  3. [Add document set](ドキュメント セットの追加) を選択し、ドキュメントの種類を選択します。

    • トレーニング セット
    • テスト セット
    • チューニング セット
    • 辞書セット:
      • 句辞書
      • 文辞書
  4. [次へ] を選択します。

    ドキュメントのアップロード リンクを示すスクリーンショット。

    注意

    [辞書セット] を選択すると、[Choose type of dictionary](辞書の種類の選択) ダイアログが起動します。 1 つを選択して、[次へ] を選択します。

  5. ラジオ ボタンからドキュメント形式を選択します。

    ドキュメントのアップロード ページを示すスクリーンショット。

    • [並列のドキュメント] で、「Document set name」と入力し、[ファイルの参照] を選択して、ソース ドキュメントとターゲット ドキュメントを選択します。
    • [翻訳メモリ (TM)] ファイルまたは [Upload multiple sets with ZIP](ZIP を使用して複数のセットをアップロード) で、[ファイルの参照] を選択して、ファイルを選択します。
  6. [アップロード] を選択します。

この時点で、カスタム翻訳ツールは、ドキュメントを処理しながら、アップロード通知に示されている文の抽出を試みています。 処理が完了すると、アップロード成功通知が表示されます。

ドキュメントのアップロードの処理中のダイアログ ウィンドウを示すスクリーンショット。

アップロード履歴の表示

[ワークスペース] ページでは、ドキュメントの種類、言語ペア、アップロードの状態など、すべてのドキュメントのアップロードに関する詳細情報の履歴を表示できます。

  1. Custom Translator ポータルの [ワークスペース] ページから [Upload History](アップロード履歴) タブをクリックして履歴を表示します。

    [Upload History]\(アップロード履歴\) タブを示すスクリーンショット。

  2. このページには、過去のすべてのアップロードの状態が表示されます。 最近のアップロードから古いアップロードの順に表示されます。 アップロードごとに、ドキュメント名、アップロードの状態、アップロード日、アップロードされたファイル数、アップロードされたファイルの種類、ファイルの言語ペア、作成者が表示されます。 フィルターを使用すると、名前、状態、言語、日付範囲でドキュメントをすばやく見つけることができます。

    アップロード履歴ページを示すスクリーンショット。

  3. 任意のアップロード履歴レコードを選択します。 アップロード履歴の詳細ページには、アップロードの一部としてアップロードされたファイル、アップロードされたファイルの状態、ファイルの言語、エラー メッセージ (アップロードにエラーがある場合) が表示されます。

次のステップ