初心者向けカスタム翻訳ツール

[アーティクル]
07/21/2023

カスタム翻訳ツールを使用すると、ビジネス、業界、ドメインに固有の用語やスタイルを反映した翻訳システムを構築することができます。カスタムシステムのトレーニングとデプロイは簡単で、プログラミングスキルを必要としません。カスタマイズされた翻訳システムは、既存のアプリケーション、ワークフロー、Web サイトにシームレスに統合され、毎日何十億もの翻訳を提供する同じクラウドベースの Microsoft Text Translation API サービスを通じて Azure で利用できます。

このプラットフォームを使用すると、ユーザーは英語との間のカスタム翻訳システムを構築して公開できます。カスタム翻訳ツールでは、60 を超える言語がサポートされ、NMT で利用可能な言語に直接マップされています。完全な一覧については、「翻訳ツールの言語サポート」を参照してください。

カスタム翻訳モデルが適切なケース

適切にトレーニングされたカスタム翻訳モデルは、以前に翻訳されたドメイン内のドキュメントを利用して優先される翻訳を学習するため、より正確なドメイン固有の翻訳を提供します。 Translator は、コンテキストに依存する文法を尊重しながら、これらの用語と語句をコンテキストで使用して、ターゲット言語で流暢な翻訳を生成します。

完全なカスタム翻訳モデルをトレーニングするには、大量のデータが必要です。以前にトレーニング済みのドキュメントの文が少なくとも 10,000 件ない場合は、フル言語翻訳モデルをトレーニングできません。ただし、辞書専用モデルをトレーニングするか、Text Translation API で使用でき、高品質ですぐに利用可能な翻訳ツールを使用することもできます。

Screenshot illustrating the difference between custom and general models.

カスタム翻訳モデルのトレーニングに関連する要素

カスタム翻訳モデルを構築するには、次のことが必要です。

目的のユースケースの理解。
ドメイン内の翻訳済みデータ (人間による翻訳が望ましい) の取得。
翻訳品質またはターゲット言語翻訳を評価する能力。

目的のユースケースを評価する方法

目的のユースケースと何をもって成功とするかを明確化することは、精度の高いトレーニングデータをソース化するための最初のステップです。いくつかの考慮事項があります。

目的の結果は何で、どのようにそれを測定しますか?
対象のビジネスドメインは何ですか?
用語とスタイルが似ているドメイン内の文がありますか?
目的のユースケースに複数のドメインが含まれますか? 含まれるなら、1 つの翻訳システムを構築するか、複数のシステムを構築する必要がありますか?
保存中と転送中の地域的データ所在地に影響を与える要件がありますか?
ターゲットユーザーは 1 つのリージョンに存在しますか、複数のリージョンに存在しますか?

データをソース化する方法

ドメイン内の品質データの検索は、多くの場合、ユーザーの分類によって異なる困難なタスクです。使用可能なデータを評価する場合に、次の点を検討できます。

多くの企業には、長年蓄積してきた人間の翻訳者による豊富な翻訳データがあります。会社に、使用可能な過去の翻訳データがありますか?
膨大な量のモノリンガルデータがありますか? モノリンガルデータは、1 つの言語だけからなるデータです。その場合、このデータの翻訳を入手できますか?
オンラインポータルをクロールしてソース文を収集し、ターゲット文を合成できますか?

トレーニング資料に使用すべき素材

ソース	実行内容	従うべきルール
バイリンガルトレーニングドキュメント	システムに用語とスタイルを教えます。	寛容に。ドメイン内の人間による翻訳は、機械翻訳より優れています。 BLEU スコアの向上を試みながら、ドキュメントを追加または削除します。
ドキュメントのチューニング	ニューラル機械翻訳パラメーターをトレーニングします。	厳密に。今後翻訳する予定の内容を最適に表すように編成します。
テストドキュメント	BLEU スコアを計算します。	厳密に。今後翻訳する予定の文章を適切に代表するようにテストドキュメントを編成します。
句辞書	常に特定の訳語の使用を強制します。	限定的に。句辞書では大文字と小文字が区別され、リストされている単語やフレーズが指定された方法で翻訳されます。多くの場合、句辞書を使用せずに、システムに学習させることをお勧めします。
文辞書	常に特定の訳語の使用を強制します。	厳密に。文辞書は、大文字と小文字が区別されず、ドメイン内でよく見られる短い文章に適しています。文辞書との一致が成立するには、送信された文全体がソース辞書の項目と一致する必要があります。文の一部が一致するだけでは、項目が一致したことにはなりません。

BLEU スコアとは

BLEU (Bilingual Evaluation Understudy) は、ある言語から別の言語に機械翻訳されたテキストの精度または正確性を評価するためのアルゴリズムです。カスタム翻訳ツールでは、翻訳精度を確認する 1 つの方法として BLEU メトリックを使用しています。

BLEU スコアは、0 から 100 の数値です。スコアが 0 の場合、リファレンスと全く一致しない低品質の翻訳を示します。スコアが 100 の場合、リファレンスと完全に一致する完全な翻訳を示します。スコアを 100 にする必要はありません。BLEU スコアが 40 から 60 の範囲であれば高品質な翻訳であることを示しています。

詳細については、こちらを参照してください。

チューニングデータやテストデータを指定しない場合

チューニング文やテスト文とは、今後翻訳する予定の文章を適切に代表する文のことです。ユーザーがチューニングデータもテストデータも指定しない場合、カスタム翻訳ツールがトレーニングドキュメントから文を自動的に除外して、チューニングデータおよびテストデータとして使用します。

システム生成	手動選択
便利。	将来のニーズに合わせて微調整可能。
トレーニングデータが翻訳する予定の文を代表していることがわかっている場合、良好。	トレーニングデータを作成する自由度が高い。
ドメインを拡大または縮小する際に再実行しやすい。	より多くのデータを使用でき、ドメインカバレッジも向上可能。
トレーニング実行ごとに変化。	トレーニング実行を繰り返しても静的に維持。

カスタム翻訳ツールによるトレーニングマテリアルの処理のしくみ

トレーニングに備えるために、ドキュメントには一連の処理とフィルタリングが適用されます。これらの手順について、以下で説明します。フィルター処理に関する知識は、カスタム翻訳ツールでのトレーニングのためにトレーニングドキュメントを準備するために実行できる手順だけでなく、表示される文の数を理解するのにも役立ちます。

文の配置

ドキュメントが XLIFF、XLSX、TMX、または ALIGN 形式ではない場合、カスタム翻訳ツールによって、ソースドキュメントとターゲットドキュメントの文が、1 文ずつ並んで配置されます。カスタム翻訳ツールでは、ドキュメントの配置は実行されません。このツールは、そのドキュメントの名前付け規則に従って、もう一方の言語の一致するドキュメントを検出します。カスタム翻訳ツールは、ターゲット言語の対応する文の検出をソーステキスト内で試みます。配置のために、埋め込まれた HTML タグのようなドキュメントマークアップが利用されています。

ソースドキュメントとターゲットドキュメントに含まれる文の数が大きく異なる場合、ソースドキュメントの並置や配置を行えない場合があります。それぞれの側で文の大きな違い (>10%) があるドキュメントのペアでは、並列したドキュメントであることを確認するために 2 回目の見直しが必要です。
チューニングデータとテストデータの抽出

チューニングデータやテストデータは省略可能です。指定しない場合、システムがトレーニングドキュメントから適切な割合を削除して、チューニングとテストに使用します。この削除は、トレーニングプロセスの一部として動的に行われます。このステップはトレーニングの一環として行われるので、アップロードされたドキュメントには影響しません。最終的に使用されたデータのカテゴリ (トレーニング、チューニング、テスト、ディクショナリ) ごとの文の数は、トレーニングの終了後に [モデルの詳細] ページで確認できます。
長さフィルター
- どちらかの側の、1 語のみの文を削除します。
- どちらかの側の、100 語を超える文を削除します。中国語、日本語、韓国語には適用されません。
- 3 文字未満の文を削除します。中国語、日本語、韓国語には適用されません。
- 中国語、日本語、韓国語の 2,000 文字を超える文を削除します。
- 英数字が 1% 未満の文を削除します。
- 50 語より多くを含む辞書エントリを削除します。
空白
- タブや CR/LF シーケンスを含む空白文字のシーケンスを単一の空白文字に置き換えます。
- 文の先頭または末尾のスペースを削除します。
文末の句点
- 文末の複数の句読点文字を単一のインスタンスに置き換えます。日本語の文字の正規化。
- 全角の文字と数字を半角文字に変換します。
エスケープされていない XML タグ

エスケープされていないタグをエスケープされたタグに変換します。

タグ変換後

< <

> >

& &
無効な文字

カスタムトランスレーターでは、Unicode 文字 U+FFFD を含む文が削除されます。文字 U+FFFD は、エンコード変換が失敗したことを示します。

タグ	変換後
<	<
>	>
&	&

データをアップロードする前に行うべき手順

エンコードが無効な文を削除します。
Unicode 制御文字を削除します。
可能な場合は、文を揃えます (ソースターゲット間で)。
ソースとターゲットの言語と一致しないソース文とターゲット文を削除します。
ソース文とターゲット文に言語が混在している場合は、翻訳されていない単語が意図的なもの (組織名や製品名など) であることを確認します。
文法上の間違いや誤字を修正し、それらの誤りがモデルに学習されないようにします。
トレーニングプロセスでは複数の文を含むソース行とターゲット行を処理しますが、1 つのソース文を 1 つのターゲット文にマップする方が優れています。

結果の評価方法

モデルが正常にトレーニングされると、モデルの BLEU スコアとベースラインモデル BLEU スコアをモデルの詳細ページで確認できます。モデルの BLEU スコアとベースラインモデル BLEU スコアを生成するために使用されるテストデータのセットは同じです。このデータは、目的のユースケースに適したモデルについて情報に基づいた決定を行うのに役立ちます。

次の手順

クイックスタートを試す

初心者向けカスタム翻訳ツール

カスタム翻訳モデルが適切なケース

カスタム翻訳モデルのトレーニングに関連する要素

目的のユース ケースを評価する方法

データをソース化する方法

トレーニング資料に使用すべき素材

BLEU スコアとは

チューニング データやテスト データを指定しない場合

カスタム翻訳ツールによるトレーニング マテリアルの処理のしくみ

文の配置

チューニング データとテスト データの抽出

長さフィルター

空白

文末の句点

エスケープされていない XML タグ

無効な文字