Was ist der Sprachdienst?

Der Sprachdienst bietet Funktionen zur Umwandlung von Sprache in Text und von Text in Sprache mithilfe einer Sprachressource. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, natürlich klingenden Text zu Sprachstimme erzeugen, gesprochenes Audio übersetzen und LIVE-KI-Sprachunterhaltungen durchführen.

Bild der Kacheln, die einige Funktionen des Sprachdienstes hervorheben.

Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Sie können Speech überall ausführen – in der Cloud oder am Edge in Containern. Mithilfe der Sprach-CLI, des Sprach-SDK und der REST-APIs können Sie Ihre Anwendungen komfortabel mit Sprachfunktionen ausstatten.

Speech ist für viele Sprachen und Regionen sowie zu unterschiedlichen Preisen verfügbar.

Sprachszenarien

Gängige Szenarien für die Verwendung von Speech sind z. B.:

Untertitelung: Sie können Untertitel mit Ihrer Audioeingabe synchronisieren, Filter für anstößige Ausdrücke anwenden, Teilergebnisse abrufen, Anpassungen vornehmen und gesprochene Sprachen in mehrsprachigen Szenarien identifizieren.
Erstellung von Audioinhalten: Sie können neurale Stimmen verwenden, um Interaktionen mit Chatbots und Sprachagenten natürlicher und ansprechender zu machen, digitale Texte wie E-Books in Hörbücher zu konvertieren und In-Car-Navigationssysteme zu verbessern.
Callcenter: Transkribieren Sie Anrufe in Echtzeit, verarbeiten Sie einen Batch von Anrufen, redigieren Sie personenbezogene Informationen, und extrahieren Sie Erkenntnisse wie die Stimmung, um die Arbeit in Ihrem Callcenter effizienter und einfacher zu gestalten.
Sprachlernen: Geben Sie Sprachlernern Feedback in Form von Aussprachebewertung, unterstützen Sie die Echtzeittranskription für Unterhaltungen im Fernunterricht, und lassen Sie Unterrichtsmaterialien mit neuronalen Stimmen laut vorlesen.
Voice live: Erstellen Sie natürliche, menschenähnliche Konversationsschnittstellen für Anwendungen und Erlebnisse. Das VoIP-Live-Feature bietet eine schnelle, zuverlässige Interaktion zwischen einer menschlichen und einer Agentimplementierung.

Microsoft verwendet Speech für viele Szenarien, z. B. zum Erstellen von Untertiteln in Teams, Diktieren in Office 365 und Vorlesen im Microsoft Edge-Browser.

Bild mit Logos von Microsoft-Produkten, in denen der Speech-Dienst verwendet wird.

Funktionen des Speech-Diensts

In diesen Abschnitten werden Speech-Funktionen mit Links zusammengefasst, unter denen Sie weitere Informationen finden.

Sprache-in-Text

Verwenden Sie Sprache für Text , um Audio in Text zu konvertieren – ob durch Echtzeittranskription zum Streamen von Audio, schnelle Transkription für vorab aufgezeichnete Audiodateien oder Batchtranskription für die asynchrone Verarbeitung großer Audiovolumen.

Das Basismodell reicht möglicherweise nicht aus, wenn die Audiodaten Umgebungsgeräusche oder umfassenden branchen- und domänenspezifischen Jargon enthalten. In diesen Fällen können Sie benutzerdefinierte Sprachmodelle mit Akustik-, Sprach- und Aussprachedaten erstellen und trainieren. Benutzerdefinierte Sprachmodelle sind privat und können einen Wettbewerbsvorteil bieten.

Text-zu-Sprache

Mit der Sprachsynthese können Sie Eingabetext in menschlich klingende synthetische Sprache konvertieren. Verwenden Sie neuronale Stimmen. Dabei handelt es sich um menschenähnliche Stimmen, die von Deep Neural Networks unterstützt werden. Verwenden Sie die Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML), um Tonhöhe, Aussprache, Sprechgeschwindigkeit, Lautstärke usw. anzupassen und zu optimieren.

Standardstimme: Äußerst natürliche, sofort einsetzbare Stimmen. Überprüfen Sie die Standard-Sprachproben in der Sprachgalerie und ermitteln Sie die richtige Stimme für Ihre geschäftlichen Anforderungen.
Benutzerdefinierte Stimme: Neben den Standardstimme, die aus der Box kommen, können Sie auch eine benutzerdefinierte Stimme erstellen, die für Ihre Marke oder Ihr Produkt erkennbar und einzigartig ist. Benutzerdefinierte Stimmen sind privat und können einen Wettbewerbsvorteil bieten. Schauen Sie sich hier die benutzerdefinierten Sprachbeispiele an.

Sprachübersetzung

Die Sprachübersetzung ermöglicht Echtzeitübersetzungen in mehreren Sprachen für Ihre Anwendungen, Tools und Geräte. Verwenden Sie dieses Feature für die Übersetzung von Sprache in Sprache und Sprache in Text.

LLM-Sprache (Vorschau)

LLM-Spracherkennung unterstützt derzeit die folgenden Sprachaufgaben:

transcribe: Konvertieren von vorab aufgezeichneten Audiodaten in Text.
translate: Konvertieren von vorab aufgezeichneten Audiodaten in Text in einer angegebenen Zielsprache.

LLM-Sprachmodell nutzt ein durch große Sprachmodelle verbessertes Sprachmodel, das verbesserte Qualität, tiefes Kontextverständnis, Unterstützung für mehrere Sprachen und Funktionen zur Optimierung von Eingabeaufforderungen bietet. Sie teilt die gleiche ultraschnelle Ableitungsleistung wie die schnelle Transkription, wodurch sie ideal für Anwendungsfälle wie das Generieren von Untertiteln und Untertiteln aus Audiodateien, das Zusammenfassen von Besprechungsnotizen, das Unterstützen von Anrufcenter-Agents, das Transkribieren von Voicemails und vieles mehr ist.

Sprachenerkennung

Bei der Sprachenerkennung werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Die Sprachenerkennung kann eigenständig oder in Kombination mit der Spracherkennung oder Sprachübersetzung verwendet werden.

Aussprachebewertung

Die Aussprachebewertung bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Mit dieser Aussprachebewertung erhalten Menschen, die Fremdsprachen lernen, direktes Feedback und können ihre Aussprache verbessern, sodass sie selbstbewusst sprechen und sich präsentieren können.

Bereitstellung und Präsenz

Sie können Azure Speech in Foundry Tools-Features in der Cloud oder lokal bereitstellen.

Mithilfe von Containern können Sie den Dienst näher an Ihre Daten heranbringen, um Compliance- und Sicherheitsanforderungen zu erfüllen oder anderen betrieblichen Anforderungen gerecht zu werden.

Die Bereitstellung des Speech-Diensts in Sovereign Clouds ist für einige Behörden und ihre Partner verfügbar. Die Azure Government-Cloud steht beispielsweise für US-Behörden und deren Partner zur Verfügung. Microsoft Azure, betrieben von 21Vianet, Cloud steht für Organisationen mit einer Geschäftspräsenz in China zur Verfügung. Weitere Informationen finden Sie unter Sovereign Clouds.

Diagramm, welches zeigt, wo der Speech-Dienst eingesetzt und aufgerufen werden kann.

Verwenden von Speech in Ihrer Anwendung

Das Speech Studio ist eine Reihe von UI-basierten Tools zum Erstellen und Integrieren von Features aus dem Azure-Sprachdienst in Ihren Anwendungen. Sie erstellen Projekte in Speech Studio mithilfe eines Ansatzes ohne Code und verweisen dann mithilfe des Speech SDK, der Speech CLI oder verschiedener REST-APIs auf die Ressourcen in Ihren Anwendungen.

Die Speech-Befehlszeilenschnittstelle ist ein Befehlszeilentool, mit dem der Speech-Dienst verwendet werden kann, ohne Code zu schreiben. Über die Speech-Befehlszeilenschnittstelle stehen die meisten Features des Speech SDK zur Verfügung, und einige erweiterte Features und Anpassungen sind in der Speech-Befehlszeilenschnittstelle vereinfacht.

Das Speech SDK (Software Development Kit) macht viele der Funktionen des Speech-Dienstes verfügbar, die Ihnen das Entwickeln sprachaktivierter Anwendungen ermöglichen. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar.

In einigen Fällen können oder sollten Sie das Speech SDK nicht verwenden. In diesen Fällen können Sie mithilfe der REST-APIs auf den Speech-Dienst zugreifen. Verwenden Sie beispielsweise REST-APIs für die Batchtranskription.

Erste Schritte

Wir bieten Schnellstarts für viele gängige Programmiersprachen an. Jede Schnellstartanleitung enthält Informationen zu grundlegenden Entwurfsmustern und ist jeweils so konzipiert, dass Sie in weniger als zehn Minuten über ausführbaren Code verfügen. Die folgende Liste enthält Schnellstartanleitungen zu den einzelnen Features:

Codebeispiele

Beispielcode für den Speech-Dienst finden Sie auf GitHub. In den Beispielen werden gängige Szenarios wie etwa das Lesen von Audiodaten aus einer Datei oder einem Stream, die kontinuierliche und einmalige Erkennung oder die Verwendung benutzerdefinierter Modelle behandelt. Über die folgenden Links gelangen Sie zu den SDK- und REST-Beispielen:

Verantwortungsvolle KI

Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.

Teilen über

Was ist der Sprachdienst?

Sprachszenarien

Funktionen des Speech-Diensts

Sprache-in-Text

Text-zu-Sprache

Sprachübersetzung

LLM-Sprache (Vorschau)

Sprachenerkennung

Aussprachebewertung

Bereitstellung und Präsenz

Verwenden von Speech in Ihrer Anwendung

Erste Schritte

Codebeispiele

Verantwortungsvolle KI

Sprache-in-Text

Aussprachebewertung

Benutzerdefinierte Stimme

Nächste Schritte

Feedback

Zusätzliche Ressourcen