並列ドキュメントとは

[アーティクル]
07/20/2023

並列ドキュメントは、一方がもう一方の翻訳であるドキュメントのペアです。ペアの一方のドキュメントにはソース言語の文が含まれ、もう一方のドキュメントにはターゲット言語に翻訳されたこれらの文が含まれています。 "ソース" とマークされている言語と "ターゲット" とマークされている言語にかかわらず、並列ドキュメントを使用して、いずれの方向でも翻訳システムをトレーニングできます。

必要条件

システムをトレーニングするには、重複のない 10,000 以上のアラインされた並列文が必要です。この制限は、翻訳モデルのトレーニングを成功させるために、並列文に十分な一意のボキャブラリが確実に含まれるようにするための安全策です。翻訳システムの品質を向上させるために、並列コンテンツを継続的に追加して保持することをお勧めします。詳細については、「文の配置」を参照してください。

Microsoft では、カスタム翻訳ツールにアップロードするドキュメントが、第三者の著作権または知的財産に違反していないことを必須にしています。詳細については、使用条件に関するページを参照してください。ポータルを使用してドキュメントをアップロードしても、ドキュメント自体の知的財産の所有権は変わりません。

並列ドキュメントの使用

並列ドキュメントは次のようにシステムから使用されます。

単語、フレーズ、文が 2 つの言語間で一般的にマップされる方法を学習するため。
周囲のフレーズに応じて、適切なコンテキストを処理する方法を学習するため。ある単語は、もう一方の言語で常にまったく同じ言語に翻訳されるとは限りません。

ソース言語とターゲット言語のバージョンのドキュメント間には、1 対 1 の文の対応を付けることをお勧めします。

プロジェクトがドメイン (カテゴリ) 固有である場合、ドキュメントはそのカテゴリ内の用語で一貫している必要があります。結果の翻訳システムの品質は、ドキュメントセット内の文の数と文の品質によって変わります。カテゴリに固有の単語のさまざまな用途共に、ドキュメントに含まれている例が多くなればなるほど、翻訳時にシステムで実行できるジョブが改善されます。

アップロードされたドキュメントは各ワークスペース専用であり、任意の数のプロジェクトやトレーニングで使用できます。ドキュメントから抽出された文は、プレーンな Unicode テキストファイルとしてリポジトリ内で別に保存され、削除することもできます。カスタム翻訳ツールをドキュメントリポジトリとして使用しないでください。アップロードしたドキュメントをアップロードした形式でダウンロードできなくなります。

次のステップ

ディクショナリを使用する方法

並列ドキュメントとは

必要条件

並列ドキュメントの使用

次のステップ

その他のリソース