speech パッケージ

Microsoft Speech SDK for Python

モジュール

audio

さまざまな認識エンジンへのオーディオ入力の処理と、音声シンセサイザーからのオーディオ出力に関係するクラス。

dialog

ダイアログ サービス コネクタに関連するクラス。

enums

Microsoft Speech SDK for Python

intent

音声からの意図認識に関連するクラス。

interop

Microsoft Speech SDK for Python

languageconfig

言語構成の処理に関係するクラス

properties

Microsoft Speech SDK for Python

speech

音声からのテキストの認識、テキストからの音声の合成、およびさまざまな認識エンジンで使用される一般的なクラスに関連するクラス。

transcription

会話の文字起こしに関連するクラス。

translation

音声の他の言語への翻訳に関連するクラス。

version

Microsoft Speech SDK for Python

クラス

AudioDataStream

オーディオ データをストリームとして操作するために使用されるオーディオ データ ストリームを表します。

音声合成結果 (SpeechSynthesisResult 型) またはキーワード (keyword)認識結果 (KeywordRecognitionResult 型) からオーディオ データ ストリームを生成します。

AutoDetectSourceLanguageResult

自動検出ソース言語の結果を表します。

結果は、音声認識結果から初期化できます。

CancellationDetails

Microsoft Speech SDK for Python

Connection

指定した Recognizerの音声サービスへの接続を管理するためのプロキシ クラス。

既定では、 は Recognizer 、必要に応じてサービスへの接続を自律的に管理します。 クラスには、ユーザーが Connection 接続を明示的に開いたり閉んだり、接続状態の変更をサブスクライブしたりするための追加のメソッドが用意されています。 Connection の使用は省略可能です。 これは、接続状態に基づいてアプリケーションの動作を微調整する必要があるシナリオを対象としています。 ユーザーは、必要に応じて を呼び出openして、この Connectionに関連付けられている で認識を開始する前に、サービス接続をRecognizer手動で開始できます。 認識を開始した後、または close を呼び出openすと失敗する可能性があります。 これは、認識エンジンや進行中の認識には影響しません。 さまざまな理由で接続が切断される可能性があります。継続的な操作を保証するために、Recognizer は常に必要に応じて接続の再確立を試みます。 いずれの場合 connected/disconnected も、イベントは接続状態の変更を示します。

注意

バージョン 1.17.0 で更新されました。

内部使用のためのコンストラクター。

ConnectionEventArgs

ConnectionEvent のデータを提供します。

注意

バージョン 1.2.0 で追加されました

内部使用のためのコンストラクター。

EventSignal

クライアントはイベントシグナルに接続してイベントを受信するか、イベントシグナルから切断してイベントの受信を停止できます。

内部使用のためのコンストラクター。

KeywordRecognitionEventArgs

キーワード (keyword)認識イベント引数のクラス。

内部使用のためのコンストラクター。

KeywordRecognitionModel

キーワード (keyword)認識モデルを表します。

KeywordRecognitionResult

キーワード (keyword)認識操作の結果。

内部使用のためのコンストラクター。

KeywordRecognizer

キーワード (keyword)認識エンジン。

NoMatchDetails

Microsoft Speech SDK for Python

PhraseListGrammar

音声認識に役立つフレーズ ヒントの実行時追加を可能にするクラス。

認識エンジンに追加されたフレーズは、次の認識の開始時、または次回に音声認識エンジンが音声サービスに再接続する必要がある場合に有効です。

注意

バージョン 1.5.0 で追加されました。

内部使用のためのコンストラクター。

PronunciationAssessmentConfig

発音評価の構成を表します

注意

バージョン 1.14.0 で追加されました。

構成は、次の 2 つの方法で初期化できます。

  • from parameters: pass reference text, grading system, granularity, enable miscue and scenario id.

  • json から: json 文字列を渡す

パラメーターの詳細については、次を参照してください。 https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

音素レベルの発音評価結果が含まれています

注意

バージョン 1.14.0 で追加されました。

PronunciationAssessmentResult

発音評価の結果を表します。

注意

バージョン 1.14.0 で追加されました。

結果は、音声認識結果から初期化できます。

PronunciationAssessmentWordResult

単語レベルの発音評価結果が含まれています

注意

バージョン 1.14.0 で追加されました。

PropertyCollection

プロパティ コレクションからプロパティ値を取得または設定するクラス。

RecognitionEventArgs

RecognitionEvent のデータを提供します。

内部使用のためのコンストラクター。

RecognitionResult

認識操作の結果に関する詳細情報。

内部使用のためのコンストラクター。

Recognizer

さまざまな認識エンジンの基底クラス

ResultFuture

非同期操作の結果。

プライベート コンストラクター

SessionEventArgs

セッション イベント引数の基底クラス。

内部使用のためのコンストラクター。

SourceLanguageRecognizer

ソース言語認識エンジン (スタンドアロン言語認識エンジン) は、単一言語または継続的な言語検出に使用できます。

注意

バージョン 1.18.0 で追加されました。

SpeechConfig

音声/意図認識と音声合成の構成を定義するクラス。

構成は、さまざまな方法で初期化できます。

  • サブスクリプションから: サブスクリプション キーとリージョンを渡す

  • エンドポイントから: エンドポイントを渡します。 サブスクリプション キーまたは承認トークンは省略可能です。

  • from host: ホスト アドレスを渡します。 サブスクリプション キーまたは承認トークンは省略可能です。

  • 承認トークンから: 承認トークンとリージョンを渡します

SpeechRecognitionCanceledEventArgs

音声認識で取り消されたイベント引数のクラス。

内部使用のためのコンストラクター。

SpeechRecognitionEventArgs

音声認識イベント引数のクラス。

内部使用のためのコンストラクター。

SpeechRecognitionResult

音声認識結果の基本クラス。

内部使用のためのコンストラクター。

SpeechRecognizer

音声認識エンジン。 ソース言語情報を指定する必要がある場合は、言語、source_language_config、またはauto_detect_source_language_configの 3 つのパラメーターのいずれかを指定してください。

SpeechSynthesisBookmarkEventArgs

音声合成ブックマーク イベント引数のクラス。

注意

バージョン 1.16.0 で追加されました。

内部使用のためのコンストラクター。

SpeechSynthesisCancellationDetails

結果が取り消された理由に関する詳細情報が含まれます。

SpeechSynthesisEventArgs

音声合成イベント引数のクラス。

内部使用のためのコンストラクター。

SpeechSynthesisResult

音声合成操作の結果。

内部使用のためのコンストラクター。

SpeechSynthesisVisemeEventArgs

音声合成の口形素イベント引数のクラス。

注意

バージョン 1.16.0 で追加されました。

内部使用のためのコンストラクター。

SpeechSynthesisWordBoundaryEventArgs

音声合成ワード境界イベント引数のクラス。

注意

バージョン 1.21.0 で更新されました。

内部使用のためのコンストラクター。

SpeechSynthesizer

音声シンセサイザー。

SyllableLevelTimingResult

音節レベルのタイミング結果が含まれます

注意

バージョン 1.20.0 で追加されました。

SynthesisVoicesResult

取得した合成音声リストに関する詳細情報が含まれます。

注意

バージョン 1.16.0 で追加されました。

内部使用のためのコンストラクター。

VoiceInfo

合成音声情報に関する詳細情報が含まれます。

注意

バージョン 1.17.0 で更新されました。

内部使用のためのコンストラクター。

列挙型

AudioStreamContainerFormat

サポートされているオーディオ ストリーム コンテナー形式を定義します。

AudioStreamWaveFormat

WAV コンテナー内で指定された形式を表します。

CancellationErrorCode

CancellationReason が Error の場合のエラー コードを定義します。

CancellationReason

認識結果が取り消される可能性がある理由を定義します。

NoMatchReason

認識結果が認識されない可能性がある考えられる理由を定義します。

OutputFormat

出力形式。

ProfanityOption

不適切な表現 (悪口) を削除するか、不適切な単語の文字を星で置き換えます。

PronunciationAssessmentGradingSystem

発音スコア調整のポイント システムを定義します。既定値は FivePoint です。

PronunciationAssessmentGranularity

発音評価の粒度を定義します。既定値は Phoneme です。

PropertyId

音声プロパティ ID を定義します。

ResultReason

認識結果が生成される可能性のある理由を指定します。

ServicePropertyChannel

プロパティ設定をサービスに渡すために使用されるチャネルを定義します。

SpeechSynthesisOutputFormat

可能な音声合成出力オーディオ形式を定義します。

StreamStatus

オーディオ データ ストリームの使用可能な状態を定義します。

SynthesisVoiceGender

合成音声の性別を定義します

SynthesisVoiceType

合成音声の種類を定義します