microsoft-cognitiveservices-speech-sdk package

Klassen

ActivityReceivedEventArgs

Definiert den Inhalt empfangener Nachrichten/Ereignisse.

AudioConfig

Stellt die Audioeingabekonfiguration dar, die zum Angeben des zu verwendenden Eingabetyps (Mikrofon, Datei, Stream) verwendet wird.

AudioInputStream

Stellt den Audioeingabestream dar, der für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

AudioOutputStream

Stellt den Audioausgabestream dar, der für benutzerdefinierte Audioausgabekonfigurationen verwendet wird.

AudioStreamFormat

Stellt das Audiostreamformat dar, das für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

AutoDetectSourceLanguageConfig

Automatische Spracherkennungskonfiguration.

AutoDetectSourceLanguageResult

Ausgabeformat

AvatarConfig

Definiert die Sprechende Avatarkonfiguration.

AvatarEventArgs

Definiert Inhalte für sprechende Avatarereignisse.

AvatarSynthesizer

Definiert den Avatarsynthesizer.

AvatarVideoFormat

Definiert das Avatarausgabevideoformat.

AvatarWebRTCConnectionResult

Definiert das WebRTC-Verbindungsergebnis des Avatars.

BaseAudioPlayer

Basis-Audioplayerklasse TODO: Wird vorerst nur PCM wiedergegeben.

BotFrameworkConfig

Klasse, die Konfigurationen für das Dialogdienstconnectorobjekt für die Verwendung eines Bot Framework-Back-Ends definiert.

CancellationDetails

Enthält ausführliche Informationen dazu, warum ein Ergebnis abgebrochen wurde.

CancellationDetailsBase

Enthält ausführliche Informationen dazu, warum ein Ergebnis abgebrochen wurde.

Connection

Connection ist eine Proxyklasse zum Verwalten der Verbindung mit dem Sprachdienst der angegebenen Erkennung. Standardmäßig verwaltet eine Erkennung die Verbindung mit dem Dienst bei Bedarf autonom. Die Connection-Klasse bietet zusätzliche Methoden für Benutzer, um eine Verbindung explizit zu öffnen oder zu schließen und eine Verbindung status Änderungen zu abonnieren. Die Verwendung von Connection ist optional und vor allem für Szenarien, in denen eine Feinabstimmung des Anwendungsverhaltens basierend auf der Verbindung status erforderlich ist. Benutzer können Optional Open() aufrufen, um eine Verbindung im Voraus manuell einzurichten, bevor sie mit der Erkennung auf der Erkennung beginnen, die dieser Verbindung zugeordnet ist. Wenn die Erkennung eine Verbindung mit dem Dienst herstellen oder trennen muss, wird die Verbindung unabhängig eingerichtet oder heruntergefahren. In diesem Fall wird die Verbindung durch Änderung der Verbindung status über Verbundene/Getrennte Ereignisse benachrichtigt. In Version 1.2.1 hinzugefügt.

ConnectionEventArgs

Definiert die Nutzlast für Verbindungsereignisse wie Verbunden/Getrennt. Hinzugefügt in Version 1.2.0

ConnectionMessage

ConnectionMessage stellt implementierungsspezifische Nachrichten dar, die an den Sprachdienst gesendet und empfangen werden. Diese Nachrichten werden zu Debugzwecken bereitgestellt und sollten nicht für Produktionsanwendungsfälle mit azure Cognitive Services Speech Service verwendet werden. Nachrichten, die an den Speech-Dienst gesendet und empfangen werden, können ohne Vorankündigung geändert werden. Dies umfasst Nachrichteninhalte, Header, Nutzlasten, Reihenfolge usw. In Version 1.11.0 hinzugefügt.

ConnectionMessageEventArgs
Conversation
ConversationExpirationEventArgs

Definiert Inhalte für Sitzungsereignisse wie SessionStarted/Stopped, SoundStarted/Stopped.

ConversationParticipantsChangedEventArgs

Definiert Inhalte für Sitzungsereignisse wie SessionStarted/Stopped, SoundStarted/Stopped.

ConversationTranscriber

Führt die Spracherkennung mit Einer Trennung des Sprechers von Mikrofon-, Datei- oder anderen Audioeingabedatenströmen aus und ruft als Ergebnis transkribierten Text ab.

ConversationTranscriptionCanceledEventArgs

Definiert den Inhalt eines RecognitionErrorEvent-Ereignisses.

ConversationTranscriptionEventArgs

Definiert Den Inhalt eines transkribierten/transkribierten Unterhaltungsereignisses.

ConversationTranscriptionResult

Definiert das Ergebnis der Konversationstranskription.

ConversationTranslationCanceledEventArgs
ConversationTranslationEventArgs

Definiert nutzlast für Sitzungsereignisse wie Sprachstart/-ende erkannt

ConversationTranslationResult

Übersetzungstextergebnis.

ConversationTranslator

Nehmen Sie an einer Unterhaltung teil, verlassen Sie sie oder stellen Sie eine Verbindung her.

Coordinate

Definiert eine Koordinate im 2D-Raum.

CustomCommandsConfig

Klasse, die Konfigurationen für das Dialogdienstconnectorobjekt für die Verwendung eines CustomCommands-Back-Ends definiert.

Diagnostics

Definiert Diagnose API zum Verwalten der Konsolenausgabe, die in Version 1.21.0 hinzugefügt wurde

DialogServiceConfig

Klasse, die Basiskonfigurationen für den Dialogdienstconnector definiert

DialogServiceConnector

Dialogdienstconnector

IntentRecognitionCanceledEventArgs

Definieren Sie die Nutzlast der abgesagten Ergebnisereignisse der Absichtserkennung.

IntentRecognitionEventArgs

Ergebnisereignisargumente der Absichtserkennung.

IntentRecognitionResult

Ergebnis der Absichtserkennung.

IntentRecognizer

Absichtserkennung.

KeywordRecognitionModel

Stellt ein Schlüsselwort (keyword) Erkennungsmodell zum Erkennen dar, wenn der Benutzer eine Schlüsselwort (keyword) angibt, um weitere Spracherkennung zu initiieren.

LanguageUnderstandingModel

Sprachverständnismodell

Meeting
MeetingTranscriber
MeetingTranscriptionCanceledEventArgs

Definiert den Inhalt eines MeetingTranscriptionCanceledEvents.

MeetingTranscriptionEventArgs

Definiert den Inhalt eines transkribierten/transkribierten Besprechungsereignisses.

NoMatchDetails

Enthält ausführliche Informationen zu NoMatch-Erkennungsergebnissen.

Participant

Stellt einen Teilnehmer an einer Unterhaltung dar. In Version 1.4.0 hinzugefügt

PhraseListGrammar

Ermöglicht das Hinzufügen neuer Ausdrücke, um die Spracherkennung zu verbessern.

Ausdrücke, die der Erkennung hinzugefügt werden, sind zu Beginn der nächsten Erkennung wirksam, oder wenn das SpeechSDK das nächste Mal eine Verbindung mit dem Spracherkennungsdienst herstellen muss.

PronunciationAssessmentConfig

Konfiguration der Aussprachebewertung.

PronunciationAssessmentResult

Ergebnisse der Aussprachebewertung.

PropertyCollection

Stellt die Auflistung von Eigenschaften und deren Werte dar.

PullAudioInputStream

Stellt den Audioeingabestream dar, der für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

PullAudioInputStreamCallback

Eine abstrakte Basisklasse, die Rückrufmethoden (read() und close()) für benutzerdefinierte Audioeingabeströme definiert.

PullAudioOutputStream

Stellt den speicherunterstutzten Pushaudioausgabestream dar, der für benutzerdefinierte Audioausgabekonfigurationen verwendet wird.

PushAudioInputStream

Stellt den speicherunterstutzten Push-Audioeingabestream dar, der für benutzerdefinierte Audioeingabekonfigurationen verwendet wird.

PushAudioOutputStream

Stellt den Audioausgabestream dar, der für benutzerdefinierte Audioausgabekonfigurationen verwendet wird.

PushAudioOutputStreamCallback

Eine abstrakte Basisklasse, die Rückrufmethoden (write() und close()) für benutzerdefinierte Audioausgabeströme definiert.

RecognitionEventArgs

Definiert nutzlast für Sitzungsereignisse wie Sprachstart/-ende erkannt

RecognitionResult

Definiert das Ergebnis der Spracherkennung.

Recognizer

Definiert die Basisklassenerkennung, die hauptsächlich allgemeine Ereignishandler enthält.

ServiceEventArgs

Definiert die Nutzlast für alle in Version 1.9.0 hinzugefügten Dienstnachrichtenereignisse.

SessionEventArgs

Definiert Inhalte für Sitzungsereignisse wie SessionStarted/Stopped, SoundStarted/Stopped.

SourceLanguageConfig

Konfiguration der Quellsprache.

SpeakerAudioDestination

Stellt das Audioziel für die Lautsprecherwiedergabe dar, das nur im Browser funktioniert. Hinweis: Das SDK versucht, Medienquellenerweiterungen zum Wiedergeben von Audio zu verwenden. Mp3-Format bietet bessere Unterstützung für Microsoft Edge, Chrome und Safari (Desktop), daher ist es besser, das mp3-Format für die Wiedergabe anzugeben.

SpeakerIdentificationModel

Definiert die SpeakerIdentificationModel-Klasse für das Sprechererkennungsmodell enthält eine Reihe von Profilen, für die Sprecher identifiziert werden sollen.

SpeakerRecognitionCancellationDetails
SpeakerRecognitionResult

Ausgabeformat

SpeakerRecognizer

Definiert die SpeakerRecognizer-Klasse für Sprechererkennung Verarbeitet Vorgänge vom Benutzer für Sprachprofilvorgänge (z. B. createProfile, deleteProfile)

SpeakerVerificationModel

Definiert die SpeakerVerificationModel-Klasse für das Sprechererkennungsmodell, das ein Profil enthält, mit dem ein Sprecher überprüft werden soll

SpeechConfig

Sprachkonfiguration.

SpeechConfigImpl
SpeechRecognitionCanceledEventArgs
SpeechRecognitionEventArgs

Definiert den Inhalt des Spracherkennungs-/erkannten Ereignisses.

SpeechRecognitionResult

Definiert das Ergebnis der Spracherkennung.

SpeechRecognizer

Führt die Spracherkennung von Mikrofon-, Datei- oder anderen Audioeingabestreams aus und ruft als Ergebnis transkribierten Text ab.

SpeechSynthesisBookmarkEventArgs

Definiert den Inhalt des Textmarkenereignisses für die Sprachsynthese.

SpeechSynthesisEventArgs

Definiert inhalte von Sprachsyntheseereignissen.

SpeechSynthesisResult

Definiert das Ergebnis der Sprachsynthese.

SpeechSynthesisVisemeEventArgs

Definiert den Inhalt des Visemereignisses für die Sprachsynthese.

SpeechSynthesisWordBoundaryEventArgs

Definiert den Inhalt des Wortbegrenzungsereignisses für die Sprachsynthese.

SpeechSynthesizer

Definiert die Klasse SpeechSynthesizer für Sprachsynthese. Aktualisiert in Version 1.16.0

SpeechTranslationConfig

Sprachübersetzungskonfiguration.

SynthesisResult

Basisklasse für Syntheseergebnisse

SynthesisVoicesResult

Definiert das Ergebnis der Sprachsynthese.

Synthesizer
TranslationRecognitionCanceledEventArgs

Definieren sie die Nutzlast der abgesagten Ergebnisereignisse der Spracherkennung.

TranslationRecognitionEventArgs

Übersetzungstext-Ergebnisereignisargumente.

TranslationRecognitionResult

Übersetzungstextergebnis.

TranslationRecognizer

Übersetzungserkennung

TranslationSynthesisEventArgs

Translation Synthesis-Ereignisargumente

TranslationSynthesisResult

Definiert das Ergebnis der Übersetzungssynthese, d. h. die Sprachausgabe des übersetzten Texts in der Zielsprache.

Translations

Stellt eine Auflistung von Parametern und deren Werten dar.

TurnStatusReceivedEventArgs

Definiert den Inhalt empfangener Nachrichten/Ereignisse.

User
VoiceInfo

Informationen zur SprachsyntheseStimme Wurde in Version 1.20.0 hinzugefügt.

VoiceProfile

Definiert die Sprachprofilklasse für die Sprechererkennung.

VoiceProfileCancellationDetails
VoiceProfileClient

Definiert die VoiceProfileClient-Klasse für Sprechererkennung Verarbeitet Vorgänge vom Benutzer für Sprachprofilvorgänge (z. B. createProfile, deleteProfile).

VoiceProfileEnrollmentCancellationDetails
VoiceProfileEnrollmentResult

Ausgabeformat

VoiceProfilePhraseResult

Ausgabeformat

VoiceProfileResult

Ausgabeformat

Schnittstellen

CancellationEventArgs
ConversationInfo
IParticipant

Stellt einen Teilnehmer an einer Unterhaltung dar. In Version 1.4.0 hinzugefügt

IPlayer

Stellt die Audioplayerschnittstelle zum Steuern der Audiowiedergabe dar, z. B. Anhalten, Fortsetzen usw.

MeetingInfo
VoiceSignature

Enumerationen

AudioFormatTag
CancellationErrorCode

Definiert Fehlercode für den Fall, dass "CancellationReason" "Error" ist. In Version 1.1.0 hinzugefügt.

CancellationReason

Definiert die möglichen Gründe, warum ein Erkennungsergebnis abgebrochen werden kann.

LanguageIdMode

Spracherkennungsmodus

LogLevel
NoMatchReason

Definiert die möglichen Gründe, aus dem ein Erkennungsergebnis möglicherweise nicht erkannt wird.

OutputFormat

Definieren Sie Ausgabeformate der Spracherkennung.

ParticipantChangedReason
ProfanityOption

Obszönitätsoption. In Version 1.7.0 hinzugefügt.

PronunciationAssessmentGradingSystem

Definiert das Punktsystem für die Kalibrierung der Aussprachebewertung; Der Standardwert ist FivePoint. In Version 1.15.0 hinzugefügt

PronunciationAssessmentGranularity

Definiert die Granularität der Ausspracheauswertung; Der Standardwert ist Phoneme. In Version 1.15.0 hinzugefügt

PropertyId

Definiert Spracheigenschaften-IDs.

ResultReason

Definiert die möglichen Gründe, aus dem ein Erkennungsergebnis generiert werden kann.

ServicePropertyChannel

Definiert Kanäle, die zum Übergeben von Eigenschafteneinstellungen an den Dienst verwendet werden. In Version 1.7.0 hinzugefügt.

SpeakerRecognitionResultType
SpeechSynthesisBoundaryType

Definiert den Begrenzungstyp des Begrenzungsereignisses für die Sprachsynthese.

SpeechSynthesisOutputFormat

Definieren Von Audioausgabeformaten für die Sprachsynthese SpeechSynthesisOutputFormat aktualisiert in Version 1.17.0

VoiceProfileType

Ausgabeformat