デフォルトのモデルを指定する形とデプロイできるモデルについての質問

NOLTY 保守 40 評価のポイント
2024-09-18T01:56:28.8466667+00:00

AzureOpenAIについて2点質問があります。

1.カスタムモデルは除きデフォルトのモデルを指定する形についての質問です。

モデルをデプロイする時の設定で、レート制限がありますが、この1分辺りのトークン制限数の大小によって料金が変わるものではなく、あくまでも実際にAIとのやり取りが行われたトークン数によってのみ費用が掛かるものと認識していますが相違ありませんか?

トークン制限はあくまでもシステムとして1分階の利用数を減らしたい時は少なめに、そうでない場合は多めに設定する意図になりますか?

2.デプロイできるモデルについて質問です。
リージョンは米国東部2を利用しています。
https://azure.microsoft.com/ja-jp/pricing/details/cognitive-services/openai-service/
ここで表示されているモデルと、実際にデプロイで選択できるモデルに表示が一致していない事から分からない事があります。

デプロイ可能モデルは3.5と4系では
gtp-3.5-turbo, gpt-3.5-turbo-16k, gpt-4, gpt-4-32k, gpt-4o, gpt-4o-mini しか選べず、価格表の使用できるモデルと差異があるのですが、それぞれのモデルが前述の価格表のどれに当たるのかが不明です。

特にgpt-4oについてはgpt-4o-2024-08-06 Regional APIとGPT-4o リージョン APIではPTUの価格も違ったりで易い方を利用していると思って高い方だったら困ってしまいます。

gpt-4oでデプロイし、以下のURLでAPIを呼び出していますが
https://{アカウント}.openai.azure.com/openai/deployments/{デプロイ名}/chat/completions?api-version=2024-02-15-preview
[GPT-4o リージョン API]の価格で使うには上記であっていますか?

よろしくお願いいたします。

Azure
Azure
Microsoft が管理する世界のデータ センター ネットワークを介してアプリケーションとサービスを構築、配置、および管理するインフラストラクチャおよびクラウド コンピューティング プラットフォーム。
404 件の質問
0 件のコメント コメントはありません
{count} 件の投票

承認済みの回答
  1. Aki Nishikawa 1,825 評価のポイント Microsoft 社員
    2024-09-18T13:24:33.5066667+00:00

    @NOLTY 保守 さん

    利用料金はトークンあたりの単価で決まります。レート制限は単位時間あたりの利用制限をするためのしくみです。その前提で、

    [1]

    実際にAIとのやり取りが行われたトークン数によってのみ費用が算出されます。

    トークン制限はあくまでもシステムとして1分階(1分間?)の利用数を減らしたい時は少なめに、そうでない場合は多めに設定する意図になりますか?

    レート制限(TPM)はモデルに対して設定します。一般論として、多数のリクエストを同時に受けるような場合にはTPMを大きなサイズにすることになるでしょう。

    [2]

    それぞれのモデルが前述の価格表のどれに当たるのか

    Azure OpenAI StudioやAzure AI Studioでモデルをデプロイする際に、各リージョンでデプロイ可能なモデル、デプロイの種類が指定できることはご存じかと思います。そこで指定したデプロイの種類やモデルによって単価が決まります。

    User's image

    上記の例だと、GPT-4oの2024-05-13をGlobal Standardでデプロイするので、下図の赤丸で囲んだものが単価です(ただのStandardはRegionalと読み替えてください)。

    User's image

    gpt-4oでデプロイし、以下のURLでAPIを呼び出していますが https://{アカウント}.openai.azure.com/openai/deployments/{デプロイ名}/chat/completions?api-version=2024-02-15-preview [GPT-4o リージョン API]の価格で使うには上記であっていますか?

    これはREST APIの呼び出し方であって、Chat Completionsを利用可能なモデル全体に適用されます。この呼び出し方でモデルは定まりません。

    1 人がこの回答が役に立ったと思いました。
    0 件のコメント コメントはありません

0 件の追加の回答

並べ替え方法: 最も役に立つ

お客様の回答

回答は、質問作成者が [承諾された回答] としてマークできます。これは、ユーザーが回答が作成者の問題を解決したことを知るのに役立ちます。