Dela via


speech Paket

Microsoft Speech SDK för Python

Moduler

audio

Klasser som handlar om hanteringen av ljudindata till de olika igenkännarna och ljudutdata från talsyntesen.

dialog

Klasser som är relaterade till dialogtjänstanslutningsappen.

enums

Microsoft Speech SDK för Python

intent

Klasser som rör avsiktsigenkänning från tal.

interop

Microsoft Speech SDK för Python

languageconfig

Klasser som rör hanteringen av språkkonfigurationer

properties

Microsoft Speech SDK för Python

speech

Klasser som rör igenkänning av text från tal, syntetisera tal från text och allmänna klasser som används i de olika igenkännarna.

transcription

Klasser relaterade till konversationstranskription.

translation

Klasser som rör översättning av tal till andra språk.

version

Microsoft Speech SDK för Python

Klasser

AudioDataStream

Representerar ljuddataström som används för att använda ljuddata som en ström.

Genererar en ljuddataström från ett talsyntesresultat (typ SpeechSynthesisResult) eller ett nyckelordsigenkänningsresultat (typ KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Representerar språkresultat för automatisk identifiering av källspråk.

Resultatet kan initieras från ett taligenkänningsresultat.

CancellationDetails

Microsoft Speech SDK för Python

Connection

Proxyklass för att hantera anslutningen till taltjänsten för den angivna Recognizer.

Som standard hanterar en Recognizer autonomt anslutning till tjänsten vid behov. Klassen Connection innehåller ytterligare metoder för användare att uttryckligen öppna eller stänga en anslutning och prenumerera på ändringar i anslutningsstatusen. Det är valfritt att använda Connection . Den är avsedd för scenarier där finjustering av programmets beteende baserat på anslutningsstatus behövs. Användare kan också anropa open för att manuellt initiera en tjänstanslutning innan de påbörjar igenkänningen av den Recognizer som är associerad med den här Connection. När du har startat en igenkänning kan det hända att det inte går att anropa open eller close . Detta påverkar inte identifieraren eller den pågående igenkänningen. Anslutningen kan ta bort av olika anledningar. Identifieraren försöker alltid att återupprätta anslutningen efter behov för att garantera pågående åtgärder. I alla dessa fall connected/disconnected anger händelser ändringen av anslutningsstatusen.

Anteckning

Uppdaterad i version 1.17.0.

Konstruktor för internt bruk.

ConnectionEventArgs

Innehåller data för ConnectionEvent.

Anteckning

Har lagts till i version 1.2.0

Konstruktor för internt bruk.

EventSignal

Klienter kan ansluta till händelsesignalen för att ta emot händelser eller koppla från händelsesignalen för att sluta ta emot händelser.

Konstruktor för internt bruk.

KeywordRecognitionEventArgs

Klass för händelseargument för nyckelordsigenkänning.

Konstruktor för internt bruk.

KeywordRecognitionModel

Representerar en nyckelordsigenkänningsmodell.

KeywordRecognitionResult

Resultatet av en nyckelordsigenkänningsåtgärd.

Konstruktor för internt bruk.

KeywordRecognizer

En nyckelordsigenkänning.

NoMatchDetails

Microsoft Speech SDK för Python

PhraseListGrammar

Klass som tillåter körningstillägg av frastips för att underlätta taligenkänning.

Fraser som läggs till i identifieraren gäller i början av nästa igenkänning, eller nästa gång taligenkänningen måste återansluta till taltjänsten.

Anteckning

Har lagts till i version 1.5.0.

Konstruktor för internt bruk.

PronunciationAssessmentConfig

Representerar konfiguration av uttalsutvärdering

Anteckning

Har lagts till i version 1.14.0.

Konfigurationen kan initieras på två sätt:

  • från parametrar: skicka referenstext, betygssystem, kornighet, aktivera felnivå och scenario-ID.

  • från json: skicka en json-sträng

Information om parametrar finns i https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Innehåller uttalsutvärderingsresultat på fonetiknivå

Anteckning

Har lagts till i version 1.14.0.

PronunciationAssessmentResult

Representerar uttalsutvärderingsresultat.

Anteckning

Har lagts till i version 1.14.0.

Resultatet kan initieras från ett taligenkänningsresultat.

PronunciationAssessmentWordResult

Innehåller uttalsutvärderingsresultat på ordnivå

Anteckning

Har lagts till i version 1.14.0.

PropertyCollection

Klass för att hämta eller ange ett egenskapsvärde från en egenskapssamling.

RecognitionEventArgs

Innehåller data för RecognitionEvent.

Konstruktor för internt bruk.

RecognitionResult

Detaljerad information om resultatet av en igenkänningsåtgärd.

Konstruktor för internt bruk.

Recognizer

Basklass för olika identifierare

ResultFuture

Resultatet av en asynkron åtgärd.

privat konstruktor

SessionEventArgs

Basklass för sessionshändelseargument.

Konstruktor för internt bruk.

SourceLanguageRecognizer

En källspråkigenkänning – fristående språkigenkänning, kan användas för identifiering av ett enda språk eller kontinuerligt språk.

Anteckning

Har lagts till i version 1.18.0.

SpeechConfig

Klass som definierar konfigurationer för tal-/avsiktsigenkänning och talsyntes.

Konfigurationen kan initieras på olika sätt:

  • från prenumeration: skicka en prenumerationsnyckel och en region

  • från slutpunkt: skicka en slutpunkt. Prenumerationsnyckel eller auktoriseringstoken är valfria.

  • från värd: skicka en värdadress. Prenumerationsnyckel eller auktoriseringstoken är valfria.

  • från auktoriseringstoken: skicka en auktoriseringstoken och en region

SpeechRecognitionCanceledEventArgs

Klass för avbrutna händelseargument för taligenkänning.

Konstruktor för internt bruk.

SpeechRecognitionEventArgs

Klass för händelseargument för taligenkänning.

Konstruktor för internt bruk.

SpeechRecognitionResult

Basklass för taligenkänningsresultat.

Konstruktor för internt bruk.

SpeechRecognizer

En taligenkänning. Om du behöver ange källspråksinformation anger du bara någon av dessa tre parametrar, språk, source_language_config eller auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Klass för händelseargument för talsyntesbokmärken.

Anteckning

Har lagts till i version 1.16.0.

Konstruktor för internt bruk.

SpeechSynthesisCancellationDetails

Innehåller detaljerad information om varför ett resultat avbröts.

SpeechSynthesisEventArgs

Klass för talsynteshändelseargument.

Konstruktor för internt bruk.

SpeechSynthesisResult

Resultatet av en talsyntesåtgärd.

Konstruktor för internt bruk.

SpeechSynthesisVisemeEventArgs

Klass för talsyntesens viseme-händelseargument.

Anteckning

Har lagts till i version 1.16.0.

Konstruktor för internt bruk.

SpeechSynthesisWordBoundaryEventArgs

Klass för talsyntesens ordgränshändelseargument.

Anteckning

Uppdaterad i version 1.21.0.

Konstruktor för internt bruk.

SpeechSynthesizer

En talsyntes.

SyllableLevelTimingResult

Innehåller resultat för tidsinställning på stavningsbar nivå

Anteckning

Har lagts till i version 1.20.0.

SynthesisVoicesResult

Innehåller detaljerad information om listan med hämtade syntesröster.

Anteckning

Har lagts till i version 1.16.0.

Konstruktor för internt bruk.

VoiceInfo

Innehåller detaljerad information om syntesröstinformationen.

Anteckning

Uppdaterad i version 1.17.0.

Konstruktor för internt bruk.

Uppräkningar

AudioStreamContainerFormat

Definierar containerformatet för ljudströmmar som stöds.

AudioStreamWaveFormat

Representerar det format som anges i WAV-containern.

CancellationErrorCode

Definierar felkod om CancellationReason är Fel.

CancellationReason

Definierar möjliga orsaker till att ett igenkänningsresultat kan avbrytas.

NoMatchReason

Definierar möjliga orsaker till att ett igenkänningsresultat kanske inte identifieras.

OutputFormat

Utdataformat.

ProfanityOption

Tar bort svordomar (svordomar) eller ersätter bokstäver med olämpliga ord med stjärnor.

PronunciationAssessmentGradingSystem

Definierar punktsystemet för uttalspoängkalibrering; standardvärdet är FivePoint.

PronunciationAssessmentGranularity

Definierar uttalsutvärderingens kornighet. standardvärdet är Phoneme.

PropertyId

Definierar talegenskaps-ID:t.

ResultReason

Anger möjliga orsaker till att ett igenkänningsresultat kan genereras.

ServicePropertyChannel

Definierar kanaler som används för att skicka egenskapsinställningar till tjänsten.

SpeechSynthesisOutputFormat

Definierar möjliga ljudformat för talsyntesutdata.

StreamStatus

Definierar den möjliga statusen för ljuddataströmmen.

SynthesisVoiceGender

Definierar könet för syntesröster

SynthesisVoiceType

Definierar typen av syntesröster