Udostępnij za pośrednictwem


speech Pakiet

Zestaw MICROSOFT Speech SDK dla języka Python

Moduły

audio

Klasy, które są związane z obsługą danych wejściowych audio do różnych aparatów rozpoznawania i wyjścia audio z syntezatora mowy.

dialog

Klasy związane z łącznikiem usługi dialogowej.

enums

Zestaw MICROSOFT Speech SDK dla języka Python

intent

Klasy związane z rozpoznawaniem intencji z mowy.

interop

Zestaw MICROSOFT Speech SDK dla języka Python

languageconfig

Klasy, które dotyczą obsługi konfiguracji języka

properties

Zestaw MICROSOFT Speech SDK dla języka Python

speech

Klasy związane z rozpoznawaniem tekstu z mowy, synchronizowaniem mowy z tekstu i klas ogólnych używanych w różnych rozpoznawaniach.

transcription

Klasy związane z transkrypcją konwersacji.

translation

Klasy związane z tłumaczeniem mowy na inne języki.

version

Zestaw MICROSOFT Speech SDK dla języka Python

Klasy

AudioDataStream

Reprezentuje strumień danych audio używany do obsługi danych audio jako strumienia.

Generuje strumień danych dźwiękowych na podstawie wyniku syntezy mowy (typ SpeechSynthesisResult) lub wynik rozpoznawania słowa kluczowego (typ KeywordRecognitionResult).

AutoDetectSourceLanguageResult

Reprezentuje wynik języka źródłowego wykrywania automatycznego.

Wynik można zainicjować na podstawie wyniku rozpoznawania mowy.

CancellationDetails

Zestaw MICROSOFT Speech SDK dla języka Python

Connection

Klasa serwera proxy do zarządzania połączeniem z usługą mowy określonego Recognizerelementu .

Domyślnie autonomicznie zarządza połączeniem z usługą w Recognizer razie potrzeby. Klasa Connection udostępnia dodatkowe metody umożliwiające użytkownikom jawne otwieranie lub zamykanie połączenia oraz subskrybowanie zmian stanu połączenia. Użycie elementu Connection jest opcjonalne. Jest ona przeznaczona dla scenariuszy, w których potrzebne jest dostrajanie zachowania aplikacji na podstawie stanu połączenia. Użytkownicy mogą opcjonalnie wywołać open metodę w celu ręcznego zainicjowania połączenia z usługą przed rozpoczęciem rozpoznawania skojarzonego Recognizer z tym Connectionelementem . Po uruchomieniu rozpoznawania wywołanie metody lub close może zakończyć się niepowodzeniemopen. Nie będzie to miało wpływu na rozpoznawanie ani bieżące rozpoznawanie. Połączenie może zostać porzucene z różnych powodów. Usługa Recognizer zawsze podejmie próbę przywrócenia połączenia zgodnie z wymaganiami w celu zagwarantowania bieżących operacji. We wszystkich tych przypadkach connected/disconnected zdarzenia będą wskazywać zmianę stanu połączenia.

Uwaga

Zaktualizowano w wersji 1.17.0.

Konstruktor do użytku wewnętrznego.

ConnectionEventArgs

Dostarcza dane dla parametru ConnectionEvent.

Uwaga

Dodano element w wersji 1.2.0

Konstruktor do użytku wewnętrznego.

EventSignal

Klienci mogą łączyć się z sygnałem zdarzenia w celu odbierania zdarzeń lub odłączyć się od sygnału zdarzenia, aby zatrzymać odbieranie zdarzeń.

Konstruktor do użytku wewnętrznego.

KeywordRecognitionEventArgs

Klasa argumentów zdarzeń rozpoznawania słów kluczowych.

Konstruktor do użytku wewnętrznego.

KeywordRecognitionModel

Reprezentuje model rozpoznawania słów kluczowych.

KeywordRecognitionResult

Wynik operacji rozpoznawania słów kluczowych.

Konstruktor do użytku wewnętrznego.

KeywordRecognizer

Rozpoznawanie słów kluczowych.

NoMatchDetails

Zestaw MICROSOFT Speech SDK dla języka Python

PhraseListGrammar

Klasa, która umożliwia dodanie do środowiska uruchomieniowego wskazówek dotyczących fraz ułatwiających rozpoznawanie mowy.

Frazy dodane do rozpoznawania są skuteczne na początku następnego rozpoznawania lub przy następnym ponownym połączeniu z usługą rozpoznawania mowy.

Uwaga

Dodano element w wersji 1.5.0.

Konstruktor do użytku wewnętrznego.

PronunciationAssessmentConfig

Reprezentuje konfigurację oceny wymowy

Uwaga

Dodano element w wersji 1.14.0.

Konfigurację można zainicjować na dwa sposoby:

  • z parametrów: przekazywanie tekstu odwołania, system klasyfikacji, stopień szczegółowości, włączanie błędu i identyfikator scenariusza.

  • z pliku json: przekazywanie ciągu JSON

Aby uzyskać szczegółowe informacje o parametrach, zobacz https://docs.microsoft.com/azure/cognitive-services/speech-service/rest-speech-to-text#pronunciation-assessment-parameters

PronunciationAssessmentPhonemeResult

Zawiera wynik oceny wymowy na poziomie phoneme

Uwaga

Dodano element w wersji 1.14.0.

PronunciationAssessmentResult

Reprezentuje wynik oceny wymowy.

Uwaga

Dodano element w wersji 1.14.0.

Wynik można zainicjować na podstawie wyniku rozpoznawania mowy.

PronunciationAssessmentWordResult

Zawiera wynik oceny wymowy na poziomie słowa

Uwaga

Dodano element w wersji 1.14.0.

PropertyCollection

Klasa do pobrania lub ustawienia wartości właściwości z kolekcji właściwości.

RecognitionEventArgs

Dostarcza dane dla funkcji RecognitionEvent.

Konstruktor do użytku wewnętrznego.

RecognitionResult

Szczegółowe informacje o wyniku operacji rozpoznawania.

Konstruktor do użytku wewnętrznego.

Recognizer

Klasa bazowa dla różnych aparatów rozpoznawania

ResultFuture

Wynik operacji asynchronicznej.

konstruktor prywatny

SessionEventArgs

Klasa bazowa argumentów zdarzeń sesji.

Konstruktor do użytku wewnętrznego.

SourceLanguageRecognizer

Rozpoznawanie języka źródłowego — autonomiczny aparat rozpoznawania języka, może służyć do wykrywania pojedynczego języka lub ciągłego języka.

Uwaga

Dodano element w wersji 1.18.0.

SpeechConfig

Klasa, która definiuje konfiguracje rozpoznawania mowy/intencji i syntezy mowy.

Konfigurację można zainicjować na różne sposoby:

  • z subskrypcji: przekazywanie klucza subskrypcji i regionu

  • z punktu końcowego: przekaż punkt końcowy. Klucz subskrypcji lub token autoryzacji są opcjonalne.

  • z hosta: przekaż adres hosta. Klucz subskrypcji lub token autoryzacji są opcjonalne.

  • z tokenu autoryzacji: przekazywanie tokenu autoryzacji i regionu

SpeechRecognitionCanceledEventArgs

Klasa do rozpoznawania mowy anulowanych argumentów zdarzeń.

Konstruktor do użytku wewnętrznego.

SpeechRecognitionEventArgs

Klasa argumentów zdarzeń rozpoznawania mowy.

Konstruktor do użytku wewnętrznego.

SpeechRecognitionResult

Klasa bazowa na potrzeby wyników rozpoznawania mowy.

Konstruktor do użytku wewnętrznego.

SpeechRecognizer

Rozpoznawanie mowy. Jeśli musisz określić informacje o języku źródłowym, określ tylko jeden z tych trzech parametrów, języka, source_language_config lub auto_detect_source_language_config.

SpeechSynthesisBookmarkEventArgs

Klasa argumentów zdarzeń zakładki syntezy mowy.

Uwaga

Dodano w wersji 1.16.0.

Konstruktor do użytku wewnętrznego.

SpeechSynthesisCancellationDetails

Zawiera szczegółowe informacje o tym, dlaczego wynik został anulowany.

SpeechSynthesisEventArgs

Klasa argumentów zdarzenia syntezy mowy.

Konstruktor do użytku wewnętrznego.

SpeechSynthesisResult

Wynik operacji syntezy mowy.

Konstruktor do użytku wewnętrznego.

SpeechSynthesisVisemeEventArgs

Klasa dla argumentów zdarzeń syntezy mowy.

Uwaga

Dodano w wersji 1.16.0.

Konstruktor do użytku wewnętrznego.

SpeechSynthesisWordBoundaryEventArgs

Klasa dla argumentów zdarzeń granic słowa syntezy mowy.

Uwaga

Zaktualizowano w wersji 1.21.0.

Konstruktor do użytku wewnętrznego.

SpeechSynthesizer

Syntetyzator mowy.

SyllableLevelTimingResult

Zawiera wynik chronometrażu poziomu sylalnej

Uwaga

Dodano w wersji 1.20.0.

SynthesisVoicesResult

Zawiera szczegółowe informacje o pobranej liście głosów syntezy.

Uwaga

Dodano w wersji 1.16.0.

Konstruktor do użytku wewnętrznego.

VoiceInfo

Zawiera szczegółowe informacje o syntezie informacji głosowych.

Uwaga

Zaktualizowano w wersji 1.17.0.

Konstruktor do użytku wewnętrznego.

Wyliczenia

AudioStreamContainerFormat

Definiuje obsługiwany format kontenera strumienia audio.

AudioStreamWaveFormat

Reprezentuje format określony wewnątrz kontenera WAV.

CancellationErrorCode

Definiuje kod błędu w przypadku, gdy wartość CancellationReason to Błąd.

CancellationReason

Definiuje możliwe przyczyny anulowania wyniku rozpoznawania.

NoMatchReason

Definiuje możliwe przyczyny, dla których wynik rozpoznawania może nie zostać rozpoznany.

OutputFormat

Format danych wyjściowych.

ProfanityOption

Usuwa wulgaryzmy (przeklinanie) lub zastępuje litery wulgarnych słów gwiazdami.

PronunciationAssessmentGradingSystem

Definiuje system punktów do kalibracji wyniku wymowy; wartość domyślna to FivePoint.

PronunciationAssessmentGranularity

Definiuje stopień szczegółowości oceny wymowy; wartość domyślna to Phoneme.

PropertyId

Definiuje identyfikatory właściwości mowy.

ResultReason

Określa możliwe przyczyny wygenerowania wyniku rozpoznawania.

ServicePropertyChannel

Definiuje kanały używane do przekazywania ustawień właściwości do usługi.

SpeechSynthesisOutputFormat

Definiuje możliwe formaty audio syntezy mowy.

StreamStatus

Definiuje możliwy stan strumienia danych audio.

SynthesisVoiceGender

Definiuje płeć głosów syntezy

SynthesisVoiceType

Definiuje typ głosów syntezy