音声テキスト変換 REST API (短いオーディオ用)

2025-03-10

短い音声向けの音声テキスト変換 REST API のユースケースは限られています。 Speech SDK を使用できない場合にのみ使用してください。

Speech to text REST API for short audio を使用する前に、次の制限事項を考慮してください。

REST API for short audio を使用して音声を直接送信する要求には、最長 60 秒の音声を含めることができます。発音評価の場合、オーディオの継続時間は 30 秒以下にする必要があります。入力のオーディオ形式は、Speech SDK に比べて多くの制限があります。
REST API for short audio は最終的な結果のみを返します。部分的な結果は提供されません。
音声翻訳は、短いオーディオの場合は REST API を介してサポートされません。 Speech SDK を使用する必要があります。
バッチ文字起こしとカスタム音声は、REST API for short audio ではサポートされていません。バッチ文字起こしとカスタム音声には、常に Speech to Text REST API を使う必要があります。

Speech to text REST API for short audio を使う前に、サービスにアクセスするための認証の一部としてトークン交換を完了する必要があることを覚えておいてください。詳細については、認証に関するページをご覧ください。

リージョンとエンドポイント

REST API for short audio のエンドポイントの形式は次のとおりです。

https://<REGION_IDENTIFIER>.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1

<REGION_IDENTIFIER> は、お使いの Azure Cognitive Service for Speech リソースのリージョンと一致する識別子に置き換えてください。

注

21Vianet のエンドポイントによって運営される Azure Government と Microsoft Azure については、ソブリンクラウドに関するこちらの記事を参照してください。

オーディオの形式

オーディオは HTTP POST 要求の本文で送信されます。この表内のいずれかの形式にする必要があります。

フォーマット	コーデック	ビットレート	サンプル速度
WAV	PCM 0	256 kbps	16 kHz、モノラル
OGG	OPUS	256 kbps	16 kHz、モノラル

注

上の形式は、Speech サービスの REST API for short audio と WebSocket を介してサポートされます。 Speech SDK では PCM コーデックの WAV 形式と、その他の形式がサポートされています。

要求ヘッダー

次の表に、音声テキスト変換要求の必須ヘッダーと省略可能なヘッダーを示します。

ヘッダ	説明	必須または省略可能
`Ocp-Apim-Subscription-Key`	Azure Cognitive Service for Speech サービスのリソースキー。	このヘッダーと `Authorization` のどちらかが必須となります。
`Authorization`	単語 `Bearer` が前に付いた認証トークン。詳細については、認証に関するページをご覧ください。	このヘッダーと `Ocp-Apim-Subscription-Key` のどちらかが必須となります。
`Pronunciation-Assessment`	認識結果に発音スコアを表示するためのパラメーターが指定されます。これらのスコアは、音声入力の発音品質を、精度、流暢性、完全性のようなインジケーターで評価します。このパラメーターは、複数の詳細パラメーターを含む、Base64 でエンコードされた JSON です。このヘッダーの作成方法については、「発音評価パラメーター」を参照してください。	省略可能
`Content-type`	指定したオーディオデータの形式とコーデックを記述します。指定できる値は、`audio/wav; codecs=audio/pcm; samplerate=16000` と `audio/ogg; codecs=opus` です。	必須
`Transfer-Encoding`	オーディオを個別のファイルとしてではなくチャンクデータとして送信することを指定します。このヘッダーは、音声データをチャンクする場合にのみ使用します。	省略可能
`Expect`	チャンク転送を使用している場合、`Expect: 100-continue` を送信します。音声サービスは最初の要求を確認し、追加のデータを待ちます。	音声のチャンクデータを送信する場合は必須となります。
`Accept`	指定する場合は、`application/json` とする必要があります。 Speech Service からは、結果が JSON 形式で返されます。Speech Service からは、結果が JSON 形式で返されます。一部の要求フレームワークでは、互換性のない既定値が提供されます。常に `Accept` を含めることをお勧めします。	省略可能ですが、指定することをお勧めします。

クエリパラメーター

REST 要求のクエリ文字列には、次のパラメーターを含めることができます。

注

4xx HTTP エラーを受け取らないためには、URL に言語パラメーターを付加する必要があります。たとえば、米国西部エンドポイントを使用する米国英語に設定される言語は https://westus.stt.speech.microsoft.com/speech/recognition/conversation/cognitiveservices/v1?language=en-US です。

パラメーター	説明	必須または省略可能
`language`	認識の対象として発話された言語を識別します。サポートされている言語を参照してください。	必須
`format`	結果の形式を指定します。指定できる値は、`simple` と `detailed` です。単純な結果には `RecognitionStatus`、`DisplayText`、`Offset`、`Duration`が含まれます。詳細な応答には、表示テキストの 4 つの異なる表現が含まれます。既定の設定は `simple` です。	省略可能
`profanity`	認識結果内の不適切な表現をどう扱うかを指定します。指定できる値は次のとおりです。 `masked`。不適切表現をアスタリスクに置き換えます。 `removed`。結果からすべての不適切表現を削除します。 `raw`。結果にすべての不適切表現が含まれます。既定の設定は `masked` です。	省略可能
`cid`	Speech Studio を使用してカスタムモデルを作成する場合、[デプロイ] ページにある [エンドポイント ID] 値を使用できます。クエリ文字列パラメーターの引数として `cid` の値を使用します。	省略可能

発音評価パラメーター

発音評価の必須パラメーターと省略可能なパラメーターを次の表に示します。

パラメーター	説明	必須または省略可能
`ReferenceText`	発音が評価されるテキスト。	必須
`GradingSystem`	スコア調整用のポイントシステム。 `FivePoint` システムによって 0 から 5 の浮動小数点スコアが付与され、`HundredMark` によって 0 から 100 の浮動小数点スコアが付与されます。既定値:`FivePoint`。	省略可能
`Granularity`	評価の粒度。指定できる値は次のとおりです。 `Phoneme`。フルテキスト、単語、および音素レベルのスコアを示します。 `Word`。フルテキストおよび単語レベルのスコアを示します。 `FullText`。フルテキストレベルのみのスコアを示します。既定の設定は `Phoneme` です。	省略可能
`Dimension`	出力条件を定義します。指定できる値は次のとおりです。 `Basic`。精度スコアのみを表示します。 `Comprehensive`。より多くの次元のスコアを表示します (フルテキストレベルの流暢性スコアと完全性スコア、単語レベルのエラーの種類など)。さまざまなスコアの次元と単語エラーの種類の定義を確認するには、「応答プロパティ」をご覧ください。既定の設定は `Basic` です。	省略可能
`EnableMiscue`	誤りの計算を有効にします。このパラメーターを有効にすると、発音された単語が参照テキストと比較されます。比較に基づいて、省略または挿入でマークされます。指定できる値は、`False` と `True` です。既定の設定は `False` です。	省略可能
`EnableProsodyAssessment`	発音評価のプロソディ評価を有効にします。この機能では、アクセント、イントネーション、話す速度、リズムなどの面が評価されます。この機能は、音声の自然さと表現力に関する分析情報を提供します。このプロパティを `True` に設定すると、`ProsodyScore` の結果値が返されます。	省略可能
`ScenarioId`	カスタマイズされたポイントシステムを示す GUID。	省略可能

発音評価パラメーターを含む JSON の例を次に示します。

{
  "ReferenceText": "Good morning.",
  "GradingSystem": "HundredMark",
  "Granularity": "Word",
  "Dimension": "Comprehensive",
  "EnableProsodyAssessment": "True"
}

次のサンプルコードは、発音評価パラメーターを Pronunciation-Assessment ヘッダーに組み込む方法を示しています。

var pronAssessmentParamsJson = $"{{\"ReferenceText\":\"Good morning.\",\"GradingSystem\":\"HundredMark\",\"Granularity\":\"Word\",\"Dimension\":\"Comprehensive\",\"EnableProsodyAssessment\":\"True\"}}";
var pronAssessmentParamsBytes = Encoding.UTF8.GetBytes(pronAssessmentParamsJson);
var pronAssessmentHeader = Convert.ToBase64String(pronAssessmentParamsBytes);

音声データを投稿するときは、ストリーミング (チャンク転送) アップロードを行うことを強くお勧めします。これにより、待ち時間が大幅に短縮されます。ストリーミングを有効にする方法については、さまざまなプログラミング言語のサンプルコードを参照してください。

注

詳細については、「発音評価」を参照してください。

要求のサンプル

次のサンプルには、ホスト名と必要なヘッダーが含まれています。サービスにはオーディオデータも必要であることに注意してください。このサンプルにオーディオデータは含まれていません。前述のようにチャンクにすることをお勧めしますが、必須ではありません。

POST speech/recognition/conversation/cognitiveservices/v1?language=en-US&format=detailed HTTP/1.1
Accept: application/json;text/xml
Content-Type: audio/wav; codecs=audio/pcm; samplerate=16000
Ocp-Apim-Subscription-Key: YOUR_RESOURCE_KEY
Host: westus.stt.speech.microsoft.com
Transfer-Encoding: chunked
Expect: 100-continue

発音評価を有効にするには、次のヘッダーを追加します。このヘッダーの作成方法については、「発音評価パラメーター」を参照してください。

Pronunciation-Assessment: eyJSZWZlcm...

HTTP 状態コード

各応答の HTTP 状態コードは、成功または一般的なエラーを示します。

HTTP 状態コード	説明	考えられる原因
100	続行	最初の要求が受け付けられました。残りのデータの送信を続行します。 (このコードはチャンク転送で使用されます。)
200	[OK]	要求は成功しました。応答本文は JSON オブジェクトです。
400	正しくない要求	言語コードが指定されていないか、言語がサポートされていないか、音声ファイルが無効です (例)。
401	権限がありません	リソースキーまたは認証トークンが指定したリージョンで無効であるか、エンドポイントが無効です。
403	許可されていません	リソースキーまたは認証トークンがありません。

応答のサンプル

simple 認識の一般的な応答を以下に示します。

{
  "RecognitionStatus": "Success",
  "DisplayText": "Remind me to buy 5 pencils.",
  "Offset": "1236645672289",
  "Duration": "1236645672289"
}

detailed 認識の一般的な応答を以下に示します。

{
  "RecognitionStatus": "Success",
  "Offset": "1236645672289",
  "Duration": "1236645672289",
  "NBest": [
    {
      "Confidence": 0.9052885,
      "Display": "What's the weather like?",
      "ITN": "what's the weather like",
      "Lexical": "what's the weather like",
      "MaskedITN": "what's the weather like"
    },
    {
      "Confidence": 0.92459863,
      "Display": "what is the weather like",
      "ITN": "what is the weather like",
      "Lexical": "what is the weather like",
      "MaskedITN": "what is the weather like"
    }
  ]
}

発音評価による認識に対する一般的な応答を以下に示します。

{
  "RecognitionStatus": "Success",
  "Offset": 700000,
  "Duration": 8400000,
  "DisplayText": "Good morning.",
  "SNR": 38.76819,
  "NBest": [
    {
      "Confidence": 0.98503506,
      "Lexical": "good morning",
      "ITN": "good morning",
      "MaskedITN": "good morning",
      "Display": "Good morning.",
      "AccuracyScore": 100.0,
      "FluencyScore": 100.0,
      "ProsodyScore": 87.8,
      "CompletenessScore": 100.0,
      "PronScore": 95.1,
      "Words": [
        {
          "Word": "good",
          "Offset": 700000,
          "Duration": 2600000,
          "Confidence": 0.0,
          "AccuracyScore": 100.0,
          "ErrorType": "None",
          "Feedback": {
            "Prosody": {
              "Break": {
                "ErrorTypes": [
                  "None"
                ],
                "BreakLength": 0
              },
              "Intonation": {
                "ErrorTypes": [],
                "Monotone": {
                  "Confidence": 0.0,
                  "WordPitchSlopeConfidence": 0.0,
                  "SyllablePitchDeltaConfidence": 0.91385907
                }
              }
            }
          }
        },
        {
          "Word": "morning",
          "Offset": 3400000,
          "Duration": 5700000,
          "Confidence": 0.0,
          "AccuracyScore": 100.0,
          "ErrorType": "None",
          "Feedback": {
            "Prosody": {
              "Break": {
                "ErrorTypes": [
                  "None"
                ],
                "UnexpectedBreak": {
                  "Confidence": 3.5294118e-08
                },
                "MissingBreak": {
                  "Confidence": 1.0
                },
                "BreakLength": 0
              },
              "Intonation": {
                "ErrorTypes": [],
                "Monotone": {
                  "Confidence": 0.0,
                  "WordPitchSlopeConfidence": 0.0,
                  "SyllablePitchDeltaConfidence": 0.91385907
                }
              }
            }
          }
        }
      ]
    }
  ]
}

応答プロパティ

結果は JSON 形式で返されます。 simple 形式には、次の最上位レベルフィールドが含まれます。

プロパティ	説明
`RecognitionStatus`	認識成功を表す `Success` などのステータス。次の表を参照してください。
`DisplayText`	大文字/小文字、句読点、逆テキスト正規化、および不適切表現マスクの後に認識されたテキストです。成功時にのみ存在します。逆テキスト正規化は、"two hundred" の場合は 200、"Doctor smith" の場合は "Dr. Smith" など、音声テキストを短い形式に変換します。
`Offset`	認識された音声がオーディオストリーム内で開始する時間 (100 ナノ秒単位)。
`Duration`	認識された音声のオーディオストリーム内での持続時間 (100 ナノ秒単位)。
`SNR`	オーディオストリームで認識された音声の信号対ノイズ比 (SNR)。

RecognitionStatus フィールドには、次の値が格納されます。

状態	説明
`Success`	認識が成功し、`DisplayText` フィールドが存在する。
`NoMatch`	音声ストリーム内に音声が検出されたが、ターゲット言語の単語は見つからなかった。通常、この状態は、認識言語がユーザーが話している言語とは異なっていることを意味します。
`InitialSilenceTimeout`	音声ストリームの先頭に無音状態しか含まれておらず、音声の待機中にサービスがタイムアウトした。
`BabbleTimeout`	音声ストリームの先頭にノイズしか含まれておらず、音声の待機中にサービスがタイムアウトした。
`Error`	認識サービスで内部エラーが発生し、処理を継続できない。可能であれば再試行してください。

注

オーディオが不適切な表現のみで構成されており、profanity クエリパラメーターが remove に設定されている場合、サービスは音声結果を返しません。

detailed 形式には、認識された結果のその他の形式が含まれます。 detailed 形式を使用しているときは、DisplayText リストに含まれるそれぞれの結果について、Display が NBest として返されます。

NBest リスト内のオブジェクトには以下を含めることができます。

プロパティ	説明
`Confidence`	0.0 (信頼度なし) から 1.0 (完全信頼) までのエントリの信頼度スコア。
`Lexical`	認識されたテキストの語彙形式: 認識された実際の単語。
`ITN`	認識されたテキストの逆テキスト正規化 (ITN) つまりカノニカル形式。電話番号、数字、略語 ("doctor smith" から "dr smith")、およびその他の変換を適用したものです。
`MaskedITN`	要求された場合、不適切な表現のマスキングを適用した ITN 形式。
`Display`	認識されたテキストの表示形式。句読点と大文字化を追加したものです。このパラメーターは、形式を `DisplayText` に設定したときに `simple` から提供されるものと同じです。
`AccuracyScore`	音声の発音精度。精度は、音素がネイティブスピーカーの発音とどれだけ厳密に一致しているかを示します。単語およびフルテキストレベルの精度スコアは、音素レベルの精度スコアから集計されます。
`FluencyScore`	提供された音声の流暢性。流暢性は、音声がネイティブスピーカーによる単語間の間の取り方にどれだけ厳密に一致しているかを示します。
`ProsodyScore`	指定された音声の韻律。韻律は、アクセント、イントネーション、話す速度、リズムなど、指定された音声がどの程度自然であるかを示します。プロソディ評価結果の定義を詳細に表示するには、「結果パラメーター」を参照してください。
`CompletenessScore`	音声の完全性。テキスト入力を参照するために発音された単語の比率を算出することで判断されます。
`PronScore`	提供された音声の発音品質を示す全体的なスコア。これは、重み付きの `AccuracyScore`、`FluencyScore`、および `CompletenessScore` から集計されます。
`ErrorType`	`ReferenceText` と比較して、単語が省略されているか、挿入されているか、発音が正しくないかどうかを示す値。指定できる値は、`None` (この単語にエラーがないことを意味します)、`Omission`、`Insertion`、および `Mispronunciation` です。

チャンク転送

チャンク転送 (Transfer-Encoding: chunked) は、認識の待ち時間を短縮するのに役立ちます。これにより、Speech サービスが、音声ファイルを転送中に処理を開始できます。 REST API for short audio では部分的または中間的な結果は提供されません。

このコードサンプルは、音声をチャンクで送信する方法を示しています。最初のチャンクだけに、オーディオファイルのヘッダーが含まれている必要があります。 request は、適切な REST エンドポイントに接続された HttpWebRequest オブジェクトです。 audioFile はディスク上のオーディオファイルのパスです。

var request = (HttpWebRequest)HttpWebRequest.Create(requestUri);
request.SendChunked = true;
request.Accept = @"application/json;text/xml";
request.Method = "POST";
request.ProtocolVersion = HttpVersion.Version11;
request.Host = host;
request.ContentType = @"audio/wav; codecs=audio/pcm; samplerate=16000";
request.Headers["Ocp-Apim-Subscription-Key"] = "YOUR_RESOURCE_KEY";
request.AllowWriteStreamBuffering = false;

using (var fs = new FileStream(audioFile, FileMode.Open, FileAccess.Read))
{
    // Open a request stream and write 1,024-byte chunks in the stream one at a time.
    byte[] buffer = null;
    int bytesRead = 0;
    using (var requestStream = request.GetRequestStream())
    {
        // Read 1,024 raw bytes from the input audio file.
        buffer = new Byte[checked((uint)Math.Min(1024, (int)fs.Length))];
        while ((bytesRead = fs.Read(buffer, 0, buffer.Length)) != 0)
        {
            requestStream.Write(buffer, 0, bytesRead);
        }

        requestStream.Flush();
    }
}

認証

各要求には Authorization ヘッダーが必要です。次の表は、各機能でサポートされているヘッダーを示したものです。

サポートされている Authorization ヘッダー	音声テキスト変換	テキストを音声に変換する
`Ocp-Apim-Subscription-Key`	はい	はい
`Authorization: Bearer`	はい	はい

Ocp-Apim-Subscription-Key ヘッダーを使用する場合は、リソースキーのみを指定する必要があります。次に例を示します。

'Ocp-Apim-Subscription-Key': 'YOUR_SUBSCRIPTION_KEY'

Authorization: Bearer ヘッダーを使用する場合は、issueToken エンドポイントに対して要求を実行する必要があります。この要求では、リソースキーを、10 分間有効なアクセストークンと交換します。

もう 1 つのオプションは、Authorization: Bearer ヘッダーも使用するが、Microsoft Entra ID を介して発行されたトークンを使用する Microsoft Entra 認証を使用することです。「Microsoft Entra 認証を使用する」を参照してください。

アクセストークンを取得する方法

アクセストークンを取得するには、issueToken とリソースキーを使用して、Ocp-Apim-Subscription-Key エンドポイントに対して要求を実行する必要があります。

issueToken エンドポイントの形式は次のとおりです。

https://<REGION_IDENTIFIER>.api.cognitive.microsoft.com/sts/v1.0/issueToken

ご利用のサブスクリプションの<REGION_IDENTIFIER>と一致する識別子でを置き換えてください。

アクセストークン要求の作成にあたっては、以下のサンプルを使用してください。

HTTP のサンプル

この例は、トークンを取得するための単純な HTTP 要求です。 YOUR_SUBSCRIPTION_KEY は、お使いの Azure Cognitive Service for Speech サービスのリソースキーに置き換えてください。お使いのサブスクリプションが米国西部リージョンにない場合は、Host ヘッダーをご自身のリージョンのホスト名に置き換えます。

POST /sts/v1.0/issueToken HTTP/1.1
Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY
Host: eastus.api.cognitive.microsoft.com
Content-type: application/x-www-form-urlencoded
Content-Length: 0

応答の本文には、JSON Web トークン (JWT) 形式のアクセストークンが格納されます。

PowerShell のサンプル

この例は、アクセストークンを取得するための単純な PowerShell スクリプトです。 YOUR_SUBSCRIPTION_KEY は、お使いの Azure Cognitive Service for Speech サービスのリソースキーに置き換えてください。必ず、実際のサブスクリプションに合ったリージョンの正しいエンドポイントを使用してください。この例では現在、米国西部に設定されています。

$FetchTokenHeader = @{
  'Content-type'='application/x-www-form-urlencoded';
  'Content-Length'= '0';
  'Ocp-Apim-Subscription-Key' = 'YOUR_SUBSCRIPTION_KEY'
}

$OAuthToken = Invoke-RestMethod -Method POST -Uri https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken
 -Headers $FetchTokenHeader

# show the token received
$OAuthToken

cURL のサンプル

cURL は Linux (および Windows Subsystem for Linux) で使用できるコマンドラインツールです。この cURL コマンドは、アクセストークンを取得する方法を示しています。 YOUR_SUBSCRIPTION_KEY は、お使いの Azure Cognitive Service for Speech サービスのリソースキーに置き換えてください。必ず、実際のサブスクリプションに合ったリージョンの正しいエンドポイントを使用してください。この例では現在、米国西部に設定されています。

curl -v -X POST \
 "https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken" \
 -H "Content-type: application/x-www-form-urlencoded" \
 -H "Content-Length: 0" \
 -H "Ocp-Apim-Subscription-Key: YOUR_SUBSCRIPTION_KEY"

C# のサンプル

この C# クラスは、アクセストークンを取得する方法を示しています。クラスをインスタンス化するときに、お使いの Azure Cognitive Service for Speech サービスのリソースキーを渡す必要があります。お使いのサブスクリプションが米国西部リージョンにない場合は、実際のサブスクリプションのリージョンに合わせて FetchTokenUri の値を変更してください。

public class Authentication
{
    public static readonly string FetchTokenUri =
        "https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken";
    private string subscriptionKey;
    private string token;

    public Authentication(string subscriptionKey)
    {
        this.subscriptionKey = subscriptionKey;
        this.token = FetchTokenAsync(FetchTokenUri, subscriptionKey).Result;
    }

    public string GetAccessToken()
    {
        return this.token;
    }

    private async Task<string> FetchTokenAsync(string fetchUri, string subscriptionKey)
    {
        using (var client = new HttpClient())
        {
            client.DefaultRequestHeaders.Add("Ocp-Apim-Subscription-Key", subscriptionKey);
            UriBuilder uriBuilder = new UriBuilder(fetchUri);

            var result = await client.PostAsync(uriBuilder.Uri.AbsoluteUri, null);
            Console.WriteLine("Token Uri: {0}", uriBuilder.Uri.AbsoluteUri);
            return await result.Content.ReadAsStringAsync();
        }
    }
}

Python のサンプル

# Request module must be installed.
# Run pip install requests if necessary.
import requests

subscription_key = 'REPLACE_WITH_YOUR_KEY'


def get_token(subscription_key):
    fetch_token_url = 'https://eastus.api.cognitive.microsoft.com/sts/v1.0/issueToken'
    headers = {
        'Ocp-Apim-Subscription-Key': subscription_key
    }
    response = requests.post(fetch_token_url, headers=headers)
    access_token = str(response.text)
    print(access_token)

アクセストークンを使用する方法

このサービスには、アクセストークンを Authorization: Bearer <TOKEN> ヘッダーとして送信する必要があります。各アクセストークンは 10 分間有効です。新しいトークンはいつでも取得できますが、ネットワークのトラフィックと待機時間を最小限に抑えるために、同じトークンを 9 分間使用することをお勧めします。

次の例では、Speech to text REST API for short audio への HTTP 要求を示します。

POST /cognitiveservices/v1 HTTP/1.1
Authorization: Bearer YOUR_ACCESS_TOKEN
Host: westus.stt.speech.microsoft.com
Content-type: application/ssml+xml
Content-Length: 199
Connection: Keep-Alive

// Message body here...

Microsoft Entra 認証を使用する

Speech to text REST API for short audio で Microsoft Entra 認証を使用するには、アクセストークンを作成する必要があります。リソース ID と Microsoft Entra アクセストークンで構成されるアクセストークンを取得する手順は、Speech SDK を使用する場合と同じです。「Microsoft Entra 認証を使用する」の手順に従ってください

Speech 用の AI Foundry リソースを作成する
Microsoft Entra 認証の Speech リソースを構成する
Microsoft Entra トークンを取得する
Speech リソース ID を取得する

リソース ID と Microsoft Entra アクセストークンを取得した後、次の形式に従って実際のアクセストークンを構築できます。

aad#YOUR_RESOURCE_ID#YOUR_MICROSOFT_ENTRA_ACCESS_TOKEN

リソース ID とアクセストークンの間に "aad#" プレフィックスと "#" (ハッシュ) 区切り記号を含める必要があります。