音声テキスト変換 REST API を使用して、 高速文字起こし、 バッチ文字起こし、 カスタム音声を行います。 この記事では、バージョン 2024-11-15 からバージョン 2025-10-15 への変更について説明します。
Important
Speech to Text REST API バージョン 2025-10-15 は、一般提供されている最新のバージョンです。
-
Speech to Text REST API バージョン
2024-05-15-previewの廃止日は後日発表されます。 - 音声テキスト変換 REST API
v3.0、v3.1、v3.2、3.2-preview.1、および3.2-preview.2は、2026 年 3 月 31 日に廃止されます。
アップグレードの詳細については、Speech to Text REST API の v3.0 から v3.1、v3.1 から v3.2、v3.2 から 2024-11-15 への移行ガイドを参照してください。
このバージョンの変更を要約するには、次の手順を実行します。
- 文字起こし API には、強化されたモードとフレーズ リストの新機能があります。
- バージョン 2024-11-15 では存在しなかった Projects API が戻り、いくつかの変更があります。
文字起こし API の変更
要求構造
-
新しいエンドポイント:
POST <your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15 -
ヘッダーとフォーム データ:
Content-Type: multipart/form-dataOcp-Apim-Subscription-Key: $KEY- フォーム フィールド:
definition、audio
Example:
curl --request POST \
--url '<your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: $KEY' \
--form 'definition=$DEFINITION' \
--form 'audio=@C:\workspace\audios\test.wav'
定義オブジェクトの更新
-
削除:
-
"models"辞書(要求定義に含まれなくなりました)
-
-
追加:
-
"phraseList": 認識バイアス チューニングのbiasingWeightがサポートされるようになりました -
"enhancedMode"オブジェクトには次のものが含まれます。-
enabled(ブール値) -
task("translate"など) -
targetLanguage("ko"など) -
prompt(命令または字句ブーストの配列)
-
-
Example:
{
"locales": ["en-US"],
"profanityFilterMode": "Masked",
"diarization": {
"enabled": true,
"maxSpeakers": 6
},
"channels": [0],
"enhancedMode": {
"enabled": true,
"task": "translate",
"targetLanguage": "ko",
"prompt": [
"Provide lexical output",
"Boost the terms: CONTOSO, AAZZ; Replace ‘50cents’ to ’50-Cents’"
]
},
"phraseList": {
"phrases": ["Kenichi Kumatani", "John McDonough", "Bhiksha Raj"],
"biasingWeight": 1.6
}
}
結果の構造
-
チャネル ベースの出力:
- 結果はチャネルごとに整理されます
-
フレーズのセグメント化:
- 各フレーズには、チャネル、開始時刻と終了時刻、話者、テキスト、単語レベルの信頼度が含まれます
Projects API の変更
新機能
-
Foundry プロジェクト名:
- 新しいプロパティ: CREATE、Get、Update、List API の
foundryProjectName
- 新しいプロパティ: CREATE、Get、Update、List API の
-
プロジェクトの作成:
- プロジェクトは、Azure Resource Manager (ARM) 規則を使用して作成されます
-
localeは、カスタム音声プロジェクトに必要になりました
Example:
POST {endpoint}/speechtotext/projects?api-version=2025-10-15
Headers:
Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>
Content-Type: application/json
Body:
{
"locale": "en-US",
"displayName": "My speech project",
"foundryProjectName": "MyFoundrySpeechProject"
}
プロジェクトの一覧とフィルター処理
-
Foundry プロジェクト名でフィルター処理する:
GET {endpoint}/speechtotext/projects?filter=foundryProjectName eq 'MyFoundrySpeechProject'&api-version=2025-10-15