トレーニングに使うドキュメントを送信すると、一連の処理とフィルター処理がそれらのドキュメントに対して行われます。 ここでは、これらの手順について説明します。 フィルター処理の知識は、カスタム翻訳に表示される文数と、カスタム翻訳を使用してトレーニング用のドキュメントを準備するために自分で実行できる手順を理解するのに役立ちます。
文の配置
文書が XLIFF、 TMX
、または ALIGN 形式でない場合、カスタム翻訳では、ソース ドキュメントとターゲット ドキュメントの文が文単位で互いにアラインされます。 カスタム翻訳では、ドキュメントの配置は実行されません。ドキュメントの名前に従って、他の言語の一致するドキュメントを検索します。 ドキュメント内で、カスタム翻訳は、対応する文を他の言語で検索しようとします。 配置のために、埋め込まれた HTML タグのようなドキュメント マークアップが利用されています。
ソース ドキュメントとターゲット ドキュメントの文の数に大きな差がある場合は、ドキュメントを適切に並置できません。 それぞれの側で文の大きな違い (>10%) があるドキュメントのペアでは、並列したドキュメントであることを確認するために 2 回目の見直しが必要です。 カスタム翻訳では、文数が疑わしい場合にドキュメントの横に警告が表示されます。
重複除去
カスタム翻訳では、テストドキュメントやチューニングドキュメントに存在する文がトレーニングデータから削除されます。 削除は、データ処理手順ではなく、トレーニングの実行中に動的に行われます。 カスタム翻訳では、そのような削除が行われる前に、プロジェクトの概要で文の数が報告されます。 独自のテストおよびチューニング ドキュメントをアップロードする場合、重複除去は適用されません。
長さフィルター
- 両側にある 1 ワードのみの文を削除します。
- 両側にある 100 ワードを超える文を削除します。 中国語、日本語、韓国語には適用されません。
- 3 文字未満の文を削除します。 中国語、日本語、韓国語には適用されません。
- 中国語、日本語、韓国語では、2,000 文字を超える文を削除します。
- アルファベットが 1% 未満の文を削除します。
- 50 単語を超える辞書エントリを削除します。
空白
- タブや CR/LF シーケンスを含む空白文字のシーケンスを単一の空白文字に置き換えます。
- 文の先頭または末尾のスペースを削除します。
文末の句点
文末の複数の句点を単一のインスタンスに置き換えます。
日本語の文字の正規化
全角のアルファベットと数字を半角文字に変換します。
エスケープされていない XML タグ
フィルター処理によって、エスケープされていないタグをエスケープされたタグに変換します。
<
は&lt;
になります>
は&gt;
になります&
は&amp;
になります
無効な文字
カスタム翻訳では、Unicode 文字 U+FFFD を含む文が削除されます。 文字 U+FFFD は、エンコード変換が失敗したことを示します。