次の方法で共有


バージョン 2024-11-15 からバージョン 2025-10-15 にコードを移行する

音声テキスト変換 REST API を使用して、 高速文字起こしバッチ文字起こしカスタム音声を行います。 この記事では、バージョン 2024-11-15 からバージョン 2025-10-15 への変更について説明します。

Important

Speech to Text REST API バージョン 2025-10-15 は、一般提供されている最新のバージョンです。

  • Speech to Text REST API バージョン 2024-05-15-preview の廃止日は後日発表されます。
  • 音声テキスト変換 REST API v3.0v3.1v3.23.2-preview.1、および 3.2-preview.2 は、2026 年 3 月 31 日に廃止されます。

アップグレードの詳細については、Speech to Text REST API の v3.0 から v3.1v3.1 から v3.2v3.2 から 2024-11-15 への移行ガイドを参照してください。

このバージョンの変更を要約するには、次の手順を実行します。

  • 文字起こし API には、強化されたモードとフレーズ リストの新機能があります。
  • バージョン 2024-11-15 では存在しなかった Projects API が戻り、いくつかの変更があります。

文字起こし API の変更

要求構造

  • 新しいエンドポイント:
    POST <your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15
    
  • ヘッダーとフォーム データ:
    • Content-Type: multipart/form-data
    • Ocp-Apim-Subscription-Key: $KEY
    • フォーム フィールド: definitionaudio

Example:

curl --request POST \
  --url '<your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
  --header 'Content-Type: multipart/form-data' \
  --header 'Ocp-Apim-Subscription-Key: $KEY' \
  --form 'definition=$DEFINITION' \
  --form 'audio=@C:\workspace\audios\test.wav'

定義オブジェクトの更新

  • 削除:
    • "models" 辞書(要求定義に含まれなくなりました)
  • 追加:
    • "phraseList": 認識バイアス チューニングの biasingWeight がサポートされるようになりました
    • "enhancedMode" オブジェクトには次のものが含まれます。
      • enabled (ブール値)
      • task ( "translate"など)
      • targetLanguage ( "ko"など)
      • prompt (命令または字句ブーストの配列)

Example:

{
  "locales": ["en-US"],
  "profanityFilterMode": "Masked",
  "diarization": {
    "enabled": true,
    "maxSpeakers": 6
  },
  "channels": [0],
  "enhancedMode": {
    "enabled": true,
    "task": "translate",
    "targetLanguage": "ko",
    "prompt": [
      "Provide lexical output",
      "Boost the terms: CONTOSO, AAZZ; Replace ‘50cents’ to ’50-Cents’"
    ]
  },
  "phraseList": {
    "phrases": ["Kenichi Kumatani", "John McDonough", "Bhiksha Raj"],
    "biasingWeight": 1.6
  }
}

結果の構造

  • チャネル ベースの出力:
    • 結果はチャネルごとに整理されます
  • フレーズのセグメント化:
    • 各フレーズには、チャネル、開始時刻と終了時刻、話者、テキスト、単語レベルの信頼度が含まれます

Projects API の変更

新機能

  • Foundry プロジェクト名:
    • 新しいプロパティ: CREATE、Get、Update、List API のfoundryProjectName
  • プロジェクトの作成:
    • プロジェクトは、Azure Resource Manager (ARM) 規則を使用して作成されます
    • locale は、カスタム音声プロジェクトに必要になりました

Example:

POST {endpoint}/speechtotext/projects?api-version=2025-10-15
Headers:
  Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>
  Content-Type: application/json
Body:
{
  "locale": "en-US",
  "displayName": "My speech project",
  "foundryProjectName": "MyFoundrySpeechProject"
}

プロジェクトの一覧とフィルター処理

  • Foundry プロジェクト名でフィルター処理する:
    GET {endpoint}/speechtotext/projects?filter=foundryProjectName eq 'MyFoundrySpeechProject'&api-version=2025-10-15
    

次のステップ