クイックスタート: カスタムモデルを使用して構築、発行、および翻訳する

[アーティクル]
07/21/2023

Translator は、クラウドベースのニューラル機械翻訳サービスであり、どのオペレーティングシステムでも使用できる REST API の Azure AI サービスファミリに含まれます。 Translator は、世界中の何千もの企業によって使用されている Microsoft の製品やサービスを強化するもので、言語翻訳やその他の言語関連の操作を行うのに使用できます。このクイックスタートでは、サポートされているすべての言語でアプリケーションのカスタムソリューションを構築する方法について説明します。

必須コンポーネント

カスタム翻訳ツールのポータルを使用するには、次のリソースが必要です。

Microsoft アカウント。
Azure サブスクリプション - 無料アカウントを作成します
Azure サブスクリプションを用意したら、Azure portal で Translator リソースを作成し、自分のキーとエンドポイントを取得します。デプロイされたら、 [リソースに移動] を選択します。
- 自分のアプリケーションを Translator サービスに接続するには、リソースのキーとエンドポイントが必要です。このクイックスタートで後に示すコードに、自分のキーとエンドポイントを貼り付けます。これらの値は Azure portal の [キーとエンドポイント] ページで確認できます。

詳細については、Translator リソースを作成する方法に関するページを参照してください。

カスタム翻訳ツールポータル

前述の前提条件が満たされたら、カスタム翻訳ツールのポータルにサインインしてワークスペースを作成し、プロジェクトをビルドし、ファイルをアップロードし、モデルをトレーニングして、カスタムソリューションを発行します。

Azure AI の技術ブログでは、翻訳とカスタム翻訳の概要について読んだり、ヒントを学習したり、概要ビデオを見たりすることができます。

プロセスの概要

ワークスペースを作成する。ワークスペースは、カスタム翻訳システムを作成および構築するための作業領域です。ワークスペースには、複数のプロジェクト、モデル、ドキュメントを含めることができます。カスタム翻訳ツールで行うすべての作業は、特定のワークスペース内で行われます。
プロジェクトを作成する。プロジェクトは、モデル、ドキュメント、およびテストのラッパーです。それぞれのプロジェクトには、正しい言語ペアでそのワークスペースにアップロードされたすべてのドキュメントが含まれます。たとえば、英語からスペイン語へのプロジェクトとスペイン語から英語へのプロジェクトの両方がある場合、同じドキュメントが両方のプロジェクトに含まれます。
並列ドキュメントをアップロードする。並列ドキュメントとは、一方 (ターゲット) がもう一方 (ソース) の翻訳であるドキュメントのペアです。ペアの一方のドキュメントにはソース言語の文が含まれ、もう一方のドキュメントにはターゲット言語に翻訳された文が含まれています。どの言語が "ソース" とマークされ、どの言語が "ターゲット" とマークされているかは関係ありません。並列ドキュメントは、いずれの方向でも翻訳システムのトレーニングに使用できます。
モデルをトレーニングする。モデルとは、特定の言語ペアの翻訳を提供するシステムです。適切なトレーニングの成果がモデルです。モデルをトレーニングする場合、互いに重複しない 3 種類のドキュメント (トレーニング、チューニング、テスト) が必要です。トレーニングをキューに追加するときにトレーニングデータのみ入力した場合、チューニングとテストのデータは、カスタム翻訳ツールによって自動的にアセンブルされます。トレーニングドキュメントから文のランダムなサブセットが使用され、これらの文がトレーニングデータ自体から除外されます。モデルをトレーニングするには、10,000 以上の並列文が必要です。
モデルをテスト (人間が評価) する。テストセットを使用して、BLEU スコアを計算します。このスコアは、お客様の翻訳システムの品質を示します。
トレーニング済みのモデルを発行 (デプロイ) する。カスタムモデルを、ランタイム変換要求で利用できるようにします。
テキストを翻訳する。クラウドベースでセキュア、かつ、ハイパフォーマンスで高度にスケーラブルな Microsoft 翻訳ツールの Text API V3 を使用して、翻訳要求を行います。

ワークスペースの作成

カスタム翻訳ツールにサインインすると、Microsoft ID プラットフォームからプロファイルを読み取ってユーザーアクセストークンと更新トークンを要求するためのアクセス許可が求められます。これらのトークンは、認証のためと、ライブセッション中やモデルのトレーニング中にサインアウトされないようにするために必要です。
[はい] を選択します。
[個人用ワークスペース] を選択します。
[新しいワークスペースの作成] を選択します。
[ワークスペース名] に「Contoso MT models」と入力し、[次へ] を選択します。
ドロップダウンリストから [Select resource region](リソースリージョンの選択) の [グローバル] を選択します。
Translator サービスキーをコピーして貼り付けます。
[次へ] を選択します。
[完了] を選択します。

Note

リージョンは、リソースの作成時に選択されたリージョンと一致する必要があります。 キー 1 またはキー 2 を使用できます。

プロジェクトを作成する

ワークスペースが正常に作成されると、[プロジェクト] ページが表示されます。

カスタムモデルをトレーニングする English-to-German プロジェクトを作成し、ドキュメントの種類はトレーニングのみを指定します。

[プロジェクトの作成] を選択します。
[プロジェクト名] に「English-to-German」と入力します。
[ソース言語] のドロップダウンリストから [English (en)] (英語 (en)) を選択します。
[対象言語] のドロップダウンリストから [German (de)] (ドイツ語 (de)) を選択します。
[Domain (ドメイン)] のドロップダウンリストから [General (一般)] を選択します。
[プロジェクトの作成] を選択します。

ドキュメントのアップロード

カスタムモデルを作成するには、ドキュメントの種類 (トレーニング、チューニング、テスト、辞書) をすべてまたは任意の組み合わせでアップロードする必要があります。

このクイックスタートでは、カスタマイズ用のトレーニングドキュメントをアップロードします。

注意

このクイックスタートでは、サンプルのトレーニング、語句と文の辞書データセット、サンプルの英語からドイツ語のデータセットを使用できます。ただし、運用環境では、独自のトレーニングデータセットをアップロードすることをお勧めします。

プロジェクト名 [English-to-German] を選択します。
左側のナビゲーションメニューから [ドキュメントの管理] を選択します。
[Add document set] (ドキュメントセットの追加) を選択します。
[トレーニングセット] ボックスをオンにし、[次へ] を選択します。
[Parallel documents] (並列ドキュメント) をオンのままにして、「sample-English-German」と入力します。
[Source (English - EN) file] (ソース (英語 - EN) ファイル) で [ファイルの参照] を選択し、[sample-English-German-Training-en.txt] を選択します。
[Target (German - EN) file] (ターゲット (ドイツ語 - EN) ファイル) で [ファイルの参照] を選択し、[sample-English-German-Training-de.txt] を選択します。
[アップロード] を選択します。

Note

サンプルの語句と文の辞書データセットをアップロードできます。この手順を実行するかどうかは任意です。

モデルをトレーニングする

これで、英語からドイツ語のモデルをトレーニングする準備ができました。

左側のナビゲーションメニューから [モデルのトレーニング] を選択します。
[モデル名] に「en-de with sample data」と入力します。
［Full training］ (完全トレーニング) はオンのままにします。
[Select documents (ドキュメントの選択)] で、[sample-English-German] をオンにし、選択した文の数に関連するトレーニングコストを確認します。
[Train now] (今すぐトレーニング) を選択します。
[Train] (トレーニング) を選択して確定します。

Note

[通知] には、[Submitting data] (データを送信中) の状態など、進行中のモデルのトレーニングが表示されます。モデルのトレーニングには、選択した文の数に応じて数時間かかります。
モデルのトレーニングが成功したら、左側のナビゲーションメニューから [モデルの詳細] を選択します。
モデル名 en-de with sample data を選択します。トレーニングの日付と時刻、合計トレーニング時間、トレーニング、チューニング、テスト、辞書に使用される文の数を確認します。システムがテストセットとチューニングセットを生成したかどうかを確認します。翻訳要求を行うには、Category ID を使用します。
モデルの BLEU スコアを評価します。テストセット BLEU スコアはカスタムモデルのスコアで、ベースライン BLEU はカスタマイズに使用された事前トレーニング済みのベースラインモデルです。 BLEU スコアが高いほど、カスタムモデルを使用した翻訳品質が高くなります。

Note

Microsoft が共有している顧客サンプルデータセットを使用してトレーニングした場合、BLEU スコアは画像とは異なります。

モデルのテスト

トレーニングが正常に完了したら、テストセットの翻訳文を検査します。

左のナビゲーションメニューから [モデルのテスト] を選択します。
[en-de with sample data] を選択します
新しいモデル (カスタムモデル) とベースラインモデル (カスタマイズに使用された事前トレーニング済みのベースライン) からの翻訳を、人間が参照 (テストセットからのターゲット翻訳) に照らして評価します。

モデルを発行する

モデルを発行すると、そのモデルを Translator API で使用できます。プロジェクトには、正常にトレーニングされたモデルが 1 つまたは複数含まれる場合があります。プロジェクトごとに発行できるモデルは 1 つのみです。ただし、ニーズに応じて、1 つまたは複数のリージョンにモデルを発行できます。詳細については、「Translator の価格」を参照してください。

左のナビゲーションメニューから [モデルの公開] を選択します。
[en-de with sample data] を選択し、[Publish] (発行) を選択します。
目的のリージョン (複数可) をオンにします。
[発行] を選びます。状態が [Deploying] (デプロイ中) から [Deployed] (デプロイ済み) に変わるはずです。

テキストを翻訳する

開発者は、Microsoft 翻訳ツールの Text API V3 を使用して翻訳要求を行うときに、Category ID を使用する必要があります。 Translator Text API の詳細については、API リファレンス Web ページを参照してください。
ビジネスユーザーは、無料の Windows 向け DocumentTranslator アプリをダウンロードしてインストールできます。

次の手順

ワークスペースの管理方法を確認する

クイック スタート: カスタムモデルを使用して構築、発行、および翻訳する