Azure Batch Speech-to-text

100 以上の言語とそのバリエーションで音声をテキストに正確に転写します。 Azure AI Speech サービスの一部として、Batch Transcription を使用すると、ストレージ内の大量の音声を文字に起こすことができます。 Shared Access Signature (SAS) URI を使用してオーディオ ファイルを指定し、文字起こし結果を非同期的に受信できます。

このコネクタは、次の製品および地域で利用可能です:

Service クラス 地域
Logic Apps 標準 以下を除くすべての Logic Apps 地域 :
     -   Azure China の地域
Power Automate 標準 以下を除くすべての Power Automate 地域 :
     -   21 Vianet が運用する中国のクラウド
Power Apps 標準 以下を除くすべての Power Apps 地域 :
     -   21 Vianet が運用する中国のクラウド
お問い合わせ先
件名 読み上げサービス Power Platform チーム
[URL] https://docs.microsoft.com/azure/cognitive-services/speech-service/support
メール speechpowerplatform@microsoft.com
Connector Metadata
発行者 マイクロソフト
Web サイト https://docs.microsoft.com/azure/cognitive-services/speech-service/
プライバシー ポリシー https://privacy.microsoft.com
カテゴリー AI、Web サイト

Speech Services バッチ トランスクリプション API は、提供された音声コンテンツに対して一括で非同期処理を行う音声認識を提供するクラウドベースのサービスです。 このコネクタは、これらの機能を Microsoft Power Automate および Power Apps の操作として公開します。

前提条件

続行するには、次のものが必要です。

接続を作成する

このコネクタは、次の認証タイプをサポートしています:

API キー ApiKey すべての地域 共有可能
Azure AD 統合 Azure Active Directory を使用して読み上げサービスにアクセスします。 Azure Government と米国政府 (GCC-High) における Azure Government と国防総省 (DoD) を除くすべての地域 共有不可
Azure AD 統合 (Azure Government) Azure Active Directory を使用して読み上げサービスにアクセスします。 Azure Government と米国政府 (GCC-High) のみに含まれる Azure Government と国防総省 (DOD) 共有不可
既定 [非推奨] このオプションは、明示的な認証の種類を持たない古い接続専用に対してのみ使用され、下位互換性を保つためにのみ提供されます。 すべての地域 共有不可

API キー

認証 ID: keyBasedAuth

適用できるもの: すべての領域

ApiKey

これは共有可能な接続です。 Power App が他のユーザーと共有されている場合、接続も共有されます。 詳細については、キャンバス アプリのコネクタの概要 - Power Apps | Microsoft Docs を参照してください

件名 タイプ Description Required
アカウント キー securestring 読み上げサービス キー True
Region string 音声サービス地域 (例: eastus) True

Azure AD 統合

Auth ID: tokenBasedAuth

適用可能: Azure Government と米国政府 (GCC-High) における Azure Government と国防総省 (DoD) を除くすべての地域

Azure Active Directory を使用して読み上げサービスにアクセスします。

これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

件名 タイプ Description Required
カスタム サブドメイン string カスタム サブドメイン エンドポイント URL (例: contoso) True

Azure AD 統合 (Azure Government)

Auth ID: tokenBasedAuth

適用可能: Azure Government と米国政府 (GCC-High) のみに含まれる Azure Government と国防総省 (DOD)

Azure Active Directory を使用して読み上げサービスにアクセスします。

これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

件名 タイプ Description Required
カスタム サブドメイン string カスタム サブドメイン エンドポイント URL (例: contoso) True

既定 [非推奨]

適用可能: すべての領域

このオプションは、明示的な認証の種類を持たない古い接続専用に対してのみ使用され、下位互換性を保つためにのみ提供されます。

これは共有可能な接続ではありません。 Power App が別のユーザーと共有されている場合、別のユーザーは新しい接続を明示的に作成するように求められます。

件名 タイプ Description Required
アカウント キー securestring Azure Cognitive Services for Batch Speech-to-text アカウント キー True
Region string 音声サービス地域 (例: eastus) True

調整制限

名前 呼び出し 更新期間
接続ごとの API 呼び出し 100 60 秒

アクション

サポートされているロケールを取得する (V3.1)

オフライン トランスクリプションのサポートされているロケールの一覧を取得します。

トランスクリプション ファイルを取得する (V3.1)

トランスクリプション (ID で 識別) から 1 つの特定のファイル (fileId で識別) を取得します。

トランスクリプションを作成する (V3.1)

新しいトランスクリプションを作成します。

トランスクリプションを削除する (V3.1)

指定されたトランスクリプション タスクを削除します。

トランスクリプションを取得する (V3.1)

指定された ID で識別されるトランスクリプションを取得します。

トランスクリプションを更新する (V3.1)

ID で識別されるトランスクリプションの変更可能な詳細を更新します。

トランスクリプション一覧を取得する (V3.1)

認証されたサブスクリプションに対するトランスクリプションの一覧を取得します。

トランスクリプション一覧ファイルを取得する (V3.1)

指定された ID で識別されるトランスクリプションのファイルを取得します。

サポートされているロケールを取得する (V3.1)

オフライン トランスクリプションのサポートされているロケールの一覧を取得します。

戻り値

名前 パス 説明
array of string

トランスクリプション ファイルを取得する (V3.1)

トランスクリプション (ID で 識別) から 1 つの特定のファイル (fileId で識別) を取得します。

パラメーター

名前 キー 必須 説明
Id
id True uuid

トランスクリプションの識別子。

ファイル Id
fileId True uuid

ファイルの識別子。

秒単位での SAS の有効性
sasValidityInSeconds integer

SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS を使用する場合 (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーンな BLOB URI が生成されることを意味します。

戻り値

Body
File

トランスクリプションを作成する (V3.1)

新しいトランスクリプションを作成します。

パラメーター

名前 キー 必須 説明
contentUrls
contentUrls array of uri

文字起こしする音声ファイルを取得するためのコンテンツ URL の一覧を提供します。 最大 1000 URL が許可されます。このプロパティは応答では返されません。

contentContainerUrl
contentContainerUrl uri

または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を提供できます。 コンテナーには、最大サイズ 5 GB と最大数 10000 の BLOB を含めることができます。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) および 'l' (一覧) のアクセス許可が含まれている必要があります。このプロパティは応答では返されません。

locale
locale True string

含まれるデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声の書き起こしに使用されます。

displayName
displayName True string

オブジェクトの表示名。

モデル
self uri

参照先エンティティの場所。

diarizationEnabled
diarizationEnabled boolean

ダイアライゼーション (話者識別) が要求されているかどうかを示す値。 既定値は false です。このフィールドのみが true に設定され、DiarizationProperties を指定して改良されたダイアライゼーション システムが有効になっていない場合、基本的なダイアライゼーション システムは最大 2 人の話者を区別します。 この場合、追加料金はかかりません。 改良されたダイアライゼーション システムは、話者の構成可能な範囲のダイアライゼーションを提供します。 DiarizationProperties フィールドで構成することができます。 非推奨: 基本的ダイアライゼーション システムは非推奨であり、API の次のメジャー バージョンで diarizationEnabled 設定と共に削除されます。

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は false です。

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

表示フォームの単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は false です。

channels
channels array of integer

要求されたチャネルのコレクション数。既定ケースでは、チャネル 0 と 1 が考慮されます。

destinationContainerUrl
destinationContainerUrl uri

要求された送信先コンテナー。### 備考 ### 送信先コンテナーを timeToLive と組み合わせて使用すると、通常トランスクリプションのメタデータは削除されますが、このコンテナーには削除権限が必要ないため、トランスクリプション結果を含む、送信先コンテナーに格納されたデータはそのまま残ります。
自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる destinationContainerUrl の代わりに "Bring your own Storage (BYOS)" を使用します。

punctuationMode
punctuationMode string

句読点に使用されるモード。

profanityFilterMode
profanityFilterMode string

不適切なフィルター処理のモード。

timeToLive
timeToLive string

トランスクリプションが完了後のシステム保存期間。 トランスクリプションが完了 (成功または失敗) 後に有効期限に達すると、トランスクリプションは自動的に削除されます。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最長期間は 31 日間です。期間は ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。

minCount
minCount integer

ダイアライゼーションの最小話者数のヒント。 maxSpeakers プロパティの値以下である必要があります。

maxCount
maxCount integer

ダイアライゼーションの最大話者数。 値は 36 未満、minSpeakers プロパティ以上である必要があります。

candidateLocales
candidateLocales True array of string

言語識別の候補ロケール (例 ["en-US"、"de-DE"、"es-ES"])。 トランスクリプションの主要ロケールを含め、最小 2 から最大 10 の候補ロケールがサポートされています。

speechModelMapping
speechModelMapping object

音声モデル エンティティへのロケールのオプション マッピング。 ロケールのモデルが指定されていない場合、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールでなければならず、値はそれぞれのロケールのモデルのエンティティです。

メールアドレス
email string

操作が完了した場合に、電子メール通知を送信する電子メール アドレス。電子メールが正常に送信された後、値は削除されます。

戻り値

トランスクリプションを削除する (V3.1)

指定されたトランスクリプション タスクを削除します。

パラメーター

名前 キー 必須 説明
Id
id True uuid

トランスクリプションの識別子。

トランスクリプションを取得する (V3.1)

指定された ID で識別されるトランスクリプションを取得します。

パラメーター

名前 キー 必須 説明
Id
id True uuid

トランスクリプションの識別子。

戻り値

トランスクリプションを更新する (V3.1)

ID で識別されるトランスクリプションの変更可能な詳細を更新します。

パラメーター

名前 キー 必須 説明
Id
id True uuid

トランスクリプションの識別子。

self
self True uri

参照先エンティティの場所。

displayName
displayName string

オブジェクトの名前。

description
description string

オブジェクトの説明。

customProperties
customProperties object

このエンティティのカスタム プロパティ。 許可されるキーの最大長は 64 文字、値の最大長は 256 文字、許容エントリの数は 10 です。

戻り値

トランスクリプション一覧を取得する (V3.1)

認証されたサブスクリプションに対するトランスクリプションの一覧を取得します。

パラメーター

名前 キー 必須 説明
Skip
skip integer

スキップされるデータセットの数。

top integer

スキップ後に含まれるデータセットの数。

フィルター
filter string

使用可能なトランスクリプションのサブセットを選択するためのフィルター式。

  • 対応プロパティ: displayName、description、createdDateTime、lastActionDateTime、status、locale。
  • 演算子:
    - eq、ne はすべてのプロパティでサポートされています。
    - gt、ge、lt、le は、createdDateTime と lastActionDateTime でサポートされています。
    - and、or、not はサポートされていません。
  • 例: filter=createdDateTime gt 2022-02-01T11:00:00Z

戻り値

トランスクリプション一覧ファイルを取得する (V3.1)

指定された ID で識別されるトランスクリプションのファイルを取得します。

パラメーター

名前 キー 必須 説明
Id
id True uuid

トランスクリプションの識別子。

秒単位での SAS の有効性
sasValidityInSeconds integer

SAS URL が有効である必要がある期間 (秒単位)。 既定の期間は 12 時間です。 BYOS を使用する場合 (https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/speech-encryption-of-data-at-rest#bring-your-own-storage-byos-for-customization-and-logging): 値 0 は、SAS トークンのないプレーンな BLOB URI が生成されることを意味します。

Skip
skip integer

スキップされるデータセットの数。

top integer

スキップ後に含まれるデータセットの数。

フィルター
filter string

使用可能なファイルのサブセットを選択するためのフィルター式。

  • 対応プロパティ: name、createdDateTime、kind。
  • 演算子:
    - eq、ne はすべてのプロパティでサポートされています。
    - gt、ge、lt、le は、createdDateTime でサポートされています。
    - and、or、not はサポートされていません。
  • 例: filter=name eq 'myaudio.wav.json' and kind eq 'Transcription'

戻り値

定義

DiarizationProperties

名前 パス 説明
speakers
speakers DiarizationSpeakersProperties

DiarizationSpeakersProperties

名前 パス 説明
minCount
minCount integer

ダイアライゼーションの最小話者数のヒント。 maxSpeakers プロパティの値以下である必要があります。

maxCount
maxCount integer

ダイアライゼーションの最大話者数。 値は 36 未満、minSpeakers プロパティ以上である必要があります。

File

名前 パス 説明
kind
kind FileKind

データの種類。

links
links FileLinks
createdDateTime
createdDateTime date-time

このファイルの作成時刻。タイム スタンプは、ISO 8601 の日付と時刻の形式 (参照:https://en.wikipedia.org/wiki/ISO_8601#Combined_date_and_time_representations) としてエンコードされます。

properties
properties FileProperties
名称
name string

このファイルの名前。

FileKind

データの種類。

データの種類。

名前 パス 説明
contentUrl
contentUrl uri

このファイルのコンテンツを取得するための URL。

FileProperties

名前 パス 説明
size
size integer

データのサイズ (バイト数)。

duration
duration string

このファイルがオーディオ ファイルである場合の期間。 期間は、ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。

LanguageIdentificationProperties

名前 パス 説明
candidateLocales
candidateLocales array of string

言語識別の候補ロケール (例 ["en-US"、"de-DE"、"es-ES"])。 トランスクリプションの主要ロケールを含め、最小 2 から最大 10 の候補ロケールがサポートされています。

speechModelMapping
speechModelMapping object

音声モデル エンティティへのロケールのオプション マッピング。 ロケールのモデルが指定されていない場合、既定の基本モデルが使用されます。キーは候補ロケールに含まれるロケールでなければならず、値はそれぞれのロケールのモデルのエンティティです。

PaginatedFiles

名前 パス 説明
values
values array of File

渡されたクエリ パラメーター 'skip' および 'top' またはそれらの既定値によって制限されたエンティティの一覧。 ページ分割を使用して一覧を反復処理し、エンティティを並行して削除する場合、一部のエンティティが結果にスキップされます。クライアントでリストを構築し、完全なリストを取得した後に削除することをお勧めします。

@nextLink
@nextLink uri

使用可能なエンティティが他にもある場合の、ページ分割された次の結果セットへのリンク。それ以外の場合は null。

PaginatedTranscriptions

名前 パス 説明
values
values array of Transcription

渡されたクエリ パラメーター 'skip' および 'top' またはそれらの既定値によって制限されたエンティティの一覧。 ページ分割を使用して一覧を反復処理し、エンティティを並行して削除する場合、一部のエンティティが結果にスキップされます。クライアントでリストを構築し、完全なリストを取得した後に削除することをお勧めします。

@nextLink
@nextLink uri

使用可能なエンティティが他にもある場合の、ページ分割された次の結果セットへのリンク。それ以外の場合は null。

ProfanityFilterMode

不適切なフィルター処理のモード。

不適切なフィルター処理のモード。

PunctuationMode

句読点に使用されるモード。

句読点に使用されるモード。

文字起こし

名前 パス 説明
contentUrls
contentUrls array of uri

文字起こしする音声ファイルを取得するためのコンテンツ URL の一覧を提供します。 最大 1000 URL が許可されます。このプロパティは応答では返されません。

contentContainerUrl
contentContainerUrl uri

または、オーディオ ファイルを含む Azure BLOB コンテナーの URL を提供できます。 コンテナーには、最大サイズ 5 GB と最大数 10000 の BLOB を含めることができます。BLOB の最大サイズは 2.5 GB です。コンテナー SAS には、'r' (読み取り) および 'l' (一覧) のアクセス許可が含まれている必要があります。このプロパティは応答では返されません。

locale
locale string

含まれるデータのロケール。 言語識別が使用されている場合、このロケールは、言語を検出できなかった音声の書き起こしに使用されます。

displayName
displayName string

オブジェクトの表示名。

モデル
model.self uri

参照先エンティティの場所。

properties
properties TranscriptionProperties

TranscriptionProperties

名前 パス 説明
diarizationEnabled
diarizationEnabled boolean

ダイアライゼーション (話者識別) が要求されているかどうかを示す値。 既定値は false です。このフィールドのみが true に設定され、DiarizationProperties を指定して改良されたダイアライゼーション システムが有効になっていない場合、基本的なダイアライゼーション システムは最大 2 人の話者を区別します。 この場合、追加料金はかかりません。 改良されたダイアライゼーション システムは、話者の構成可能な範囲のダイアライゼーションを提供します。 DiarizationProperties フィールドで構成することができます。 非推奨: 基本的ダイアライゼーション システムは非推奨であり、API の次のメジャー バージョンで diarizationEnabled 設定と共に削除されます。

wordLevelTimestampsEnabled
wordLevelTimestampsEnabled boolean

単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は false です。

displayFormWordLevelTimestampsEnabled
displayFormWordLevelTimestampsEnabled boolean

表示フォームの単語レベルのタイムスタンプが要求されているかどうかを示す値。 既定値は false です。

channels
channels array of integer

要求されたチャネルのコレクション数。既定ケースでは、チャネル 0 と 1 が考慮されます。

destinationContainerUrl
destinationContainerUrl uri

要求された送信先コンテナー。### 備考 ### 送信先コンテナーを timeToLive と組み合わせて使用すると、通常トランスクリプションのメタデータは削除されますが、このコンテナーには削除権限が必要ないため、トランスクリプション結果を含む、送信先コンテナーに格納されたデータはそのまま残ります。
自動クリーンアップをサポートするには、コンテナーで BLOB の有効期間を構成するか、BLOB をクリーンアップできる destinationContainerUrl の代わりに "Bring your own Storage (BYOS)" を使用します。

punctuationMode
punctuationMode PunctuationMode

句読点に使用されるモード。

profanityFilterMode
profanityFilterMode ProfanityFilterMode

不適切なフィルター処理のモード。

timeToLive
timeToLive string

トランスクリプションが完了後のシステム保存期間。 トランスクリプションが完了 (成功または失敗) 後に有効期限に達すると、トランスクリプションは自動的に削除されます。 この値を設定しないか、0 に設定すると、自動削除が無効になります。 サポートされている最長期間は 31 日間です。期間は ISO 8601 期間 ("PnYnMnDTnHnMnS"、参照: https://en.wikipedia.org/wiki/ISO_8601#Durations) としてエンコードされます。

diarization
diarization DiarizationProperties
言語識別 -
languageIdentification LanguageIdentificationProperties
メールアドレス
email string

操作が完了した場合に、電子メール通知を送信する電子メール アドレス。電子メールが正常に送信された後、値は削除されます。