Worum handelt es sich beim Speech-Dienst?
Der Speech-Dienst – Azure Cognitive Service für Speech – bietet mit einer Azure Speech-Ressource Funktionen für die Spracherkennung (Sprache-in-Text) und Sprachsynthese (Text-zu-Sprache). Sie können Sprache mit hoher Genauigkeit in Text transkribieren, Text in natürlich klingende Sprache konvertieren, gesprochene Audiodaten übersetzen und während Konversationen die Sprechererkennung verwenden.
Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Sie können Speech überall ausführen – in der Cloud oder am Edge in Containern. Über die Speech-Befehlszeilenschnittstelle, das Speech SDK, das Speech Studio oder REST-APIs können Sie Ihre Anwendungen, Tools und Geräten komfortabel mit Sprachfunktionen ausstatten.
Speech ist für viele Sprachen und Regionen sowie zu unterschiedlichen Preisen verfügbar.
Speech-Szenarien
Gängige Szenarien für die Verwendung von Speech sind z. B.:
- Untertitelung: Sie können Untertitel mit Ihrer Audioeingabe synchronisieren, Filter für anstößige Ausdrücke anwenden, Teilergebnisse abrufen, Anpassungen vornehmen und gesprochene Sprachen in mehrsprachigen Szenarien identifizieren.
- Audioinhaltserstellung: Gestalten Sie mit neuronalen Stimmen Interaktionen mit Chatbots und Sprach-Assistenten noch natürlicher und einladender, konvertieren Sie digitale Texte wie E-Books in Audiobooks, und verbessern Sie Navigationssysteme im Auto.
- Callcenter: Transkribieren Sie Anrufe in Echtzeit, verarbeiten Sie einen Batch von Anrufen, redigieren Sie personenbezogene Informationen, und extrahieren Sie Erkenntnisse wie die Stimmung, um die Arbeit in Ihrem Callcenter effizienter und einfacher zu gestalten.
- Sprachlernen: Geben Sie Sprachlernern Feedback in Form von Aussprachebewertung, unterstützen Sie die Echtzeittranskription für Unterhaltungen im Fernunterricht, und lassen Sie Unterrichtsmaterialien mit neuronalen Stimmen laut vorlesen.
- Sprach-Assistenten: Erstellen Sie natürliche Konversationsschnittstellen für Ihre Anwendungen und Umgebungen, die der menschlichen Sprache nahekommen. Die Funktion für den Sprach-Assistenten ermöglicht die schnelle, zuverlässige Interaktion zwischen einem Gerät und einer Assistentenimplementierung.
Microsoft verwendet Speech für viele Szenarien, z. B. zum Erstellen von Untertiteln in Teams, Diktieren in Office 365 und Vorlesen im Edge-Browser.
Sprachfunktionen
Im Folgenden finden Sie eine Zusammenfassung der Speech-Funktionen und Links zu weiteren Informationen.
Spracherkennung
Verwenden Sie die Spracherkennung, um Audio in Echtzeit oder asynchron in Text zu transkribieren.
Tipp
Sie können Sprache-in-Text in Speech Studio ausprobieren, ohne sich zu registrieren oder Code zu schreiben.
Konvertieren Sie Audio aus einer Reihe von Quellen (darunter Mikrofone, Audiodateien und Blobspeicher) in Text. Verwenden Sie die Sprecherdiarisierung (Sprechertrennung), um zu bestimmen, wer was wann gesagt hat. Erstellen Sie lesbare Transkripts mit automatischer Formatierung und Interpunktion.
Das Basismodell reicht möglicherweise nicht aus, wenn das Audiosignal Umgebungsgeräusche oder viel branchen- und domänenspezifischen Jargon enthält. In diesen Fällen können Sie benutzerdefinierte Sprachmodelle mit Akustik-, Sprach- und Aussprachedaten erstellen und trainieren. Benutzerdefinierte Sprachmodelle sind privat und können einen Wettbewerbsvorteil bieten.
Text-zu-Sprache
Mit der Sprachsynthese (Text-zu-Sprache) können Sie Eingabetext in menschlich klingende synthetische Sprache konvertieren. Verwenden Sie neuronale Stimmen. Dabei handelt es sich um menschenähnliche Stimmen, die von Deep Neural Network-Instanzen unterstützt werden. Verwenden Sie die Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML), um Tonhöhe, Aussprache, Sprechgeschwindigkeit, Lautstärke usw. anzupassen und zu optimieren.
- Vordefinierte neuronale Stimme: Äußerst natürliche, sofort einsetzbare Stimmen. Hören Sie sich die vordefinierten neuronalen Stimmbeispiele im Stimmkatalog an, und wählen Sie die für Ihre Geschäftsanforderungen geeignete Stimme aus.
- Benutzerdefinierte neuronale Stimme: Neben den vordefinierten neuronalen Stimmen können Sie auch eine wiedererkennbare und einzigartige benutzerdefinierte neuronale Stimme für Ihre Marke oder Ihr Produkt erstellen. Benutzerdefinierte neuronale Stimmen sind privat und können einen Wettbewerbsvorteil bieten. Hören Sie sich die benutzerdefinierten neuronalen Stimmbeispiele an.
Sprachübersetzung
Die Sprachübersetzung ermöglicht Echtzeitübersetzungen in mehreren Sprachen für Ihre Anwendungen, Tools und Geräte. Verwenden Sie dieses Feature für die Übersetzung von Sprache in Sprache und Sprache in Text.
Sprachenerkennung
Bei der Sprachenerkennung werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Die Sprachenerkennung kann eigenständig oder in Kombination mit der Spracherkennung oder Sprachübersetzung verwendet werden.
Sprechererkennung
Die Sprechererkennung bietet Algorithmen, mit denen Sprecher anhand ihrer individuellen Stimmmerkmale überprüft und identifiziert werden. Die Sprechererkennung wird verwendet, um zu ermitteln, wer spricht.
Aussprachebewertung
Die Aussprachebewertung bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Mit dieser Aussprachebewertung erhalten Menschen, die Fremdsprachen lernen, direktes Feedback und können ihre Aussprache verbessern, sodass sie selbstbewusst sprechen und sich präsentieren können.
Absichtserkennung
Absichtserkennung: Verwenden Sie die Spracherkennung mit Conversational Language Understanding (CLU), um Benutzerabsichten aus transkribierter Sprache abzuleiten und auf Sprachbefehle zu reagieren.
Bereitstellung und Präsenz
Sie können Features von Azure Cognitive Service für Speech in der Cloud oder lokal bereitstellen.
Mithilfe von Containern können Sie den Dienst näher an Ihre Daten heranbringen, um Compliance- und Sicherheitsanforderungen zu erfüllen oder anderen betrieblichen Anforderungen gerecht zu werden.
Die Bereitstellung des Speech-Diensts in Sovereign Clouds ist für einige Behörden und ihre Partner verfügbar. Die Azure Government-Cloud steht beispielsweise für US-Behörden und deren Partner zur Verfügung. Die Azure China-Cloud steht für Organisationen mit einer Geschäftspräsenz in China zur Verfügung. Weitere Informationen finden Sie unter Sovereign Clouds.
Verwenden von Speech in Ihrer Anwendung
Bei Speech Studio handelt es sich um eine Reihe von benutzeroberflächenbasierten Tools, mit denen Sie Features des Speech-Diensts erstellen und in Ihre Anwendungen integrieren können. Sie erstellen Projekte in Speech Studio mithilfe eines Ansatzes ohne Code und verweisen dann mithilfe des Speech SDK, der Speech CLI oder verschiedener REST-APIs auf die Ressourcen in Ihren Anwendungen.
Die Speech-Befehlszeilenschnittstelle ist ein Befehlszeilentool, mit dem der Speech-Dienst verwendet werden kann, ohne Code zu schreiben. Über die Speech-Befehlszeilenschnittstelle stehen die meisten Features des Speech SDK zur Verfügung, und einige erweiterte Features und Anpassungen sind in der Speech-Befehlszeilenschnittstelle vereinfacht.
Das Speech SDK (Software Development Kit) macht viele der Funktionen des Speech-Dienstes verfügbar, die Ihnen das Entwickeln sprachaktivierter Anwendungen ermöglichen. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar.
In einigen Fällen können oder sollten Sie das Speech SDK nicht verwenden. In diesen Fällen können Sie mithilfe der REST-APIs auf den Speech-Dienst zugreifen. Verwenden Sie z. B. die REST-APIs für die Batch-Transkription und Sprechererkennung.
Erste Schritte
Wir bieten Schnellstarts für viele gängige Programmiersprachen an. Jede Schnellstartanleitung enthält Informationen zu grundlegenden Entwurfsmustern und ist jeweils so konzipiert, dass Sie in weniger als zehn Minuten über ausführbaren Code verfügen. Die folgende Liste enthält Schnellstartanleitungen zu den einzelnen Features:
- Grundlegendes zur Spracherkennung
- Schnellstartanleitung zur Sprachsynthese
- Grundlegendes zur Sprachübersetzung
Codebeispiele
Beispielcode für den Speech-Dienst finden Sie auf GitHub. In den Beispielen werden gängige Szenarios wie etwa das Lesen von Audiodaten aus einer Datei oder einem Stream, die kontinuierliche und einmalige Erkennung oder die Verwendung benutzerdefinierter Modelle behandelt. Über die folgenden Links gelangen Sie zu den SDK- und REST-Beispielen:
- Beispiele für Spracherkennung, Sprachsynthese und Sprachübersetzung (SDK)
- Batch transcription samples (REST) (Batchtranskriptionsbeispiele (REST))
- Beispiele für Text-zu-Sprache (REST)
- Beispiele für Sprachassistenten (SDK)