@NOLTY 保守 さん
利用料金はトークンあたりの単価で決まります。レート制限は単位時間あたりの利用制限をするためのしくみです。その前提で、
[1]
実際にAIとのやり取りが行われたトークン数によってのみ費用が算出されます。
トークン制限はあくまでもシステムとして1分階(1分間?)の利用数を減らしたい時は少なめに、そうでない場合は多めに設定する意図になりますか?
レート制限(TPM)はモデルに対して設定します。一般論として、多数のリクエストを同時に受けるような場合にはTPMを大きなサイズにすることになるでしょう。
[2]
それぞれのモデルが前述の価格表のどれに当たるのか
Azure OpenAI StudioやAzure AI Studioでモデルをデプロイする際に、各リージョンでデプロイ可能なモデル、デプロイの種類が指定できることはご存じかと思います。そこで指定したデプロイの種類やモデルによって単価が決まります。
上記の例だと、GPT-4oの2024-05-13をGlobal Standardでデプロイするので、下図の赤丸で囲んだものが単価です(ただのStandardはRegionalと読み替えてください)。
gpt-4oでデプロイし、以下のURLでAPIを呼び出していますが https://{アカウント}.openai.azure.com/openai/deployments/{デプロイ名}/chat/completions?api-version=2024-02-15-preview [GPT-4o リージョン API]の価格で使うには上記であっていますか?
これはREST APIの呼び出し方であって、Chat Completionsを利用可能なモデル全体に適用されます。この呼び出し方でモデルは定まりません。