クイック スタート: カスタムモデルを使用して構築、発行、および翻訳する

Translator は、クラウドベースのニューラル機械翻訳サービスであり、どのオペレーティング システムでも使用できる REST API の Azure AI サービス ファミリに含まれます。 Translator は、世界中の何千もの企業によって使用されている Microsoft の製品やサービスを強化するもので、言語翻訳やその他の言語関連の操作を行うのに使用できます。 このクイックスタートでは、サポートされているすべての言語でアプリケーションのカスタム ソリューションを構築する方法について説明します。

必須コンポーネント

カスタム翻訳ツールのポータルを使用するには、次のリソースが必要です。

  • Microsoft アカウント

  • Azure サブスクリプション - 無料アカウントを作成します

  • Azure サブスクリプションを用意したら、Azure portal で Translator リソースを作成し、自分のキーとエンドポイントを取得します。 デプロイされたら、 [リソースに移動] を選択します。

    • 自分のアプリケーションを Translator サービスに接続するには、リソースのキーとエンドポイントが必要です。 このクイックスタートで後に示すコードに、自分のキーとエンドポイントを貼り付けます。 これらの値は Azure portal の [キーとエンドポイント] ページで確認できます。

      スクリーンショット: Azure portal の [キーとエンドポイント] ページ。

詳細については、Translator リソースを作成する方法に関するページを参照してください

カスタム翻訳ツール ポータル

前述の前提条件が満たされたら、カスタム翻訳ツールのポータルにサインインしてワークスペースを作成し、プロジェクトをビルドし、ファイルをアップロードし、モデルをトレーニングして、カスタム ソリューションを発行します。

Azure AI の技術ブログでは、翻訳とカスタム翻訳の概要について読んだり、ヒントを学習したり、概要ビデオを見たりすることができます。

プロセスの概要

  1. ワークスペースを作成する。 ワークスペースは、カスタム翻訳システムを作成および構築するための作業領域です。 ワークスペースには、複数のプロジェクト、モデル、ドキュメントを含めることができます。 カスタム翻訳ツールで行うすべての作業は、特定のワークスペース内で行われます。

  2. プロジェクトを作成する。 プロジェクトは、モデル、ドキュメント、およびテストのラッパーです。 それぞれのプロジェクトには、正しい言語ペアでそのワークスペースにアップロードされたすべてのドキュメントが含まれます。 たとえば、英語からスペイン語へのプロジェクトとスペイン語から英語へのプロジェクトの両方がある場合、同じドキュメントが両方のプロジェクトに含まれます。

  3. 並列ドキュメントをアップロードする。 並列ドキュメントとは、一方 (ターゲット) がもう一方 (ソース) の翻訳であるドキュメントのペアです。 ペアの一方のドキュメントにはソース言語の文が含まれ、もう一方のドキュメントにはターゲット言語に翻訳された文が含まれています。 どの言語が "ソース" とマークされ、どの言語が "ターゲット" とマークされているかは関係ありません。並列ドキュメントは、いずれの方向でも翻訳システムのトレーニングに使用できます。

  4. モデルをトレーニングする。 モデルとは、特定の言語ペアの翻訳を提供するシステムです。 適切なトレーニングの成果がモデルです。 モデルをトレーニングする場合、互いに重複しない 3 種類のドキュメント (トレーニング、チューニング、テスト) が必要です。 トレーニングをキューに追加するときにトレーニング データのみ入力した場合、チューニングとテストのデータは、カスタム翻訳ツールによって自動的にアセンブルされます。 トレーニング ドキュメントから文のランダムなサブセットが使用され、これらの文がトレーニング データ自体から除外されます。 モデルをトレーニングするには、10,000 以上の並列文が必要です。

  5. モデルをテスト (人間が評価) する。 テスト セットを使用して、BLEU スコアを計算します。 このスコアは、お客様の翻訳システムの品質を示します。

  6. トレーニング済みのモデルを発行 (デプロイ) する。 カスタム モデルを、ランタイム変換要求で利用できるようにします。

  7. テキストを翻訳する。 クラウドベースでセキュア、かつ、ハイパフォーマンスで高度にスケーラブルな Microsoft 翻訳ツールの Text API V3 を使用して、翻訳要求を行います。

ワークスペースの作成

  1. カスタム翻訳ツールにサインインすると、Microsoft ID プラットフォームからプロファイルを読み取ってユーザー アクセス トークンと更新トークンを要求するためのアクセス許可が求められます。 これらのトークンは、認証のためと、ライブ セッション中やモデルのトレーニング中にサインアウトされないようにするために必要です。
    [はい] を選択します。

    ワークスペースの作成方法を示すスクリーンショット。

  2. [個人用ワークスペース] を選択します。

  3. [新しいワークスペースの作成] を選択します。

  4. [ワークスペース名] に「Contoso MT models」と入力し、[次へ] を選択します。

  5. ドロップダウン リストから [Select resource region](リソース リージョンの選択) の [グローバル] を選択します。

  6. Translator サービス キーをコピーして貼り付けます。

  7. [次へ] を選択します。

  8. [完了] を選択します。

    Note

    リージョンは、リソースの作成時に選択されたリージョンと一致する必要があります。 キー 1 またはキー 2 を使用できます。

    リソース キーを表しているスクリーンショット。

    ワークスペースの作成を表しているスクリーンショット。

プロジェクトを作成する

ワークスペースが正常に作成されると、[プロジェクト] ページが表示されます。

カスタム モデルをトレーニングする English-to-German プロジェクトを作成し、ドキュメントの種類はトレーニングのみを指定します。

  1. [プロジェクトの作成] を選択します。

  2. [プロジェクト名] に「English-to-German」と入力します。

  3. [ソース言語] のドロップダウン リストから [English (en)] (英語 (en)) を選択します。

  4. [対象言語] のドロップダウン リストから [German (de)] (ドイツ語 (de)) を選択します。

  5. [Domain (ドメイン)] のドロップダウン リストから [General (一般)] を選択します。

  6. [プロジェクトの作成] を選択します。

    プロジェクトの作成方法を示すスクリーンショット。

ドキュメントのアップロード

カスタム モデルを作成するには、ドキュメントの種類 (トレーニングチューニングテスト辞書) をすべてまたは任意の組み合わせでアップロードする必要があります。

このクイック スタートでは、カスタマイズ用のトレーニング ドキュメントをアップロードします。

注意

このクイック スタートでは、サンプルのトレーニング、語句と文の辞書データセット、サンプルの英語からドイツ語のデータセットを使用できます。 ただし、運用環境では、独自のトレーニング データセットをアップロードすることをお勧めします。

  1. プロジェクト名 [English-to-German] を選択します。

  2. 左側のナビゲーション メニューから [ドキュメントの管理] を選択します。

  3. [Add document set] (ドキュメント セットの追加) を選択します。

  4. [トレーニング セット] ボックスをオンにし、[次へ] を選択します。

  5. [Parallel documents] (並列ドキュメント) をオンのままにして、「sample-English-German」と入力します。

  6. [Source (English - EN) file] (ソース (英語 - EN) ファイル)[ファイルの参照] を選択し、[sample-English-German-Training-en.txt] を選択します。

  7. [Target (German - EN) file] (ターゲット (ドイツ語 - EN) ファイル)[ファイルの参照] を選択し、[sample-English-German-Training-de.txt] を選択します。

  8. [アップロード] を選択します。

    Note

    サンプルの語句と文の辞書データセットをアップロードできます。 この手順を実行するかどうかは任意です。

    ドキュメントのアップロード方法を示すスクリーンショット。

モデルをトレーニングする

これで、英語からドイツ語のモデルをトレーニングする準備ができました。

  1. 左側のナビゲーション メニューから [モデルのトレーニング] を選択します。

  2. [モデル名] に「en-de with sample data」と入力します。

  3. [Full training] (完全トレーニング) はオンのままにします。

  4. [Select documents (ドキュメントの選択)] で、[sample-English-German] をオンにし、選択した文の数に関連するトレーニング コストを確認します。

  5. [Train now] (今すぐトレーニング) を選択します。

  6. [Train] (トレーニング) を選択して確定します。

    Note

    [通知] には、[Submitting data] (データを送信中) の状態など、進行中のモデルのトレーニングが表示されます。 モデルのトレーニングには、選択した文の数に応じて数時間かかります。

    モデルの作成方法を示すスクリーンショット。

  7. モデルのトレーニングが成功したら、左側のナビゲーション メニューから [モデルの詳細] を選択します。

  8. モデル名 en-de with sample data を選択します。 トレーニングの日付と時刻、合計トレーニング時間、トレーニング、チューニング、テスト、辞書に使用される文の数を確認します。 システムがテスト セットとチューニング セットを生成したかどうかを確認します。 翻訳要求を行うには、Category ID を使用します。

  9. モデルの BLEU スコアを評価します。 テスト セット BLEU スコアはカスタム モデルのスコアで、ベースライン BLEU はカスタマイズに使用された事前トレーニング済みのベースライン モデルです。 BLEU スコアが高いほど、カスタム モデルを使用した翻訳品質が高くなります。

    Note

    Microsoft が共有している顧客サンプル データセットを使用してトレーニングした場合、BLEU スコアは画像とは異なります。

    モデルの詳細を示すスクリーンショット。

モデルのテスト

トレーニングが正常に完了したら、テスト セットの翻訳文を検査します。

  1. 左のナビゲーション メニューから [モデルのテスト] を選択します。
  2. [en-de with sample data] を選択します
  3. 新しいモデル (カスタム モデル) とベースライン モデル (カスタマイズに使用された事前トレーニング済みのベースライン) からの翻訳を、人間が参照 (テスト セットからのターゲット翻訳) に照らして評価します。

モデルを発行する

モデルを発行すると、そのモデルを Translator API で使用できます。 プロジェクトには、正常にトレーニングされたモデルが 1 つまたは複数含まれる場合があります。 プロジェクトごとに発行できるモデルは 1 つのみです。ただし、ニーズに応じて、1 つまたは複数のリージョンにモデルを発行できます。 詳細については、「Translator の価格」を参照してください。

  1. 左のナビゲーション メニューから [モデルの公開] を選択します。

  2. [en-de with sample data] を選択し、[Publish] (発行) を選択します。

  3. 目的のリージョン (複数可) をオンにします。

  4. [発行] を選びます。 状態が [Deploying] (デプロイ中) から [Deployed] (デプロイ済み) に変わるはずです。

    トレーニング済みモデルをデプロイする方法を示すスクリーンショット。

テキストを翻訳する

  1. 開発者は、Microsoft 翻訳ツールの Text API V3 を使用して翻訳要求を行うときに、Category ID を使用する必要があります。 Translator Text API の詳細については、API リファレンス Web ページを参照してください。

  2. ビジネス ユーザーは、無料の Windows 向け DocumentTranslator アプリをダウンロードしてインストールできます。

次の手順