Ereignisse
Erstellen von KI-Apps und Agents
17. März, 21 Uhr - 21. März, 10 Uhr
Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.
Jetzt registrierenDieser Browser wird nicht mehr unterstützt.
Führen Sie ein Upgrade auf Microsoft Edge aus, um die neuesten Funktionen, Sicherheitsupdates und technischen Support zu nutzen.
Der Speech-Dienst bietet mit einer Speech-Ressource Funktionen für die Spracherkennung und Sprachsynthese. Sie können Sprache mit hoher Genauigkeit in Text transkribieren, Text in natürlich klingende Sprache konvertieren, gesprochene Audiodaten übersetzen und bei Konversationen die Sprechererkennung verwenden.
Erstellen Sie benutzerdefinierte Stimmen, fügen Sie Ihrem Basisvokabular bestimmte Wörter hinzu, oder erstellen Sie eigene Modelle. Sie können Speech überall ausführen – in der Cloud oder am Edge in Containern. Mithilfe der Speech-CLI, des Speech-SDK und der REST-APIs können Sie Ihre Anwendungen komfortabel mit Sprachfunktionen ausstatten.
Speech ist für viele Sprachen und Regionen sowie zu unterschiedlichen Preisen verfügbar.
Gängige Szenarien für die Verwendung von Speech sind z. B.:
Microsoft verwendet Speech für viele Szenarien, z. B. zum Erstellen von Untertiteln in Teams, Diktieren in Office 365 und Vorlesen im Microsoft Edge-Browser.
In diesen Abschnitten werden Speech-Funktionen mit Links zusammengefasst, unter denen Sie weitere Informationen finden.
Verwenden Sie die Spracherkennung, um Audio in Text zu transkribieren, entweder in Echtzeit oder asynchron mithilfe von Batchtranskription.
Tipp
Sie können Spracherkennung in Echtzeit in Speech Studio ausprobieren, ohne sich zu registrieren oder Code zu schreiben.
Konvertieren Sie Audio aus einer Reihe von Quellen (darunter Mikrofone, Audiodateien und Blobspeicher) in Text. Verwenden Sie die Sprecherdiarisierung (Sprechertrennung), um zu bestimmen, wer was wann gesagt hat. Erstellen Sie lesbare Transkripts mit automatischer Formatierung und Interpunktion.
Das Basismodell reicht möglicherweise nicht aus, wenn die Audiodaten Umgebungsgeräusche oder umfassenden branchen- und domänenspezifischen Jargon enthalten. In diesen Fällen können Sie benutzerdefinierte Sprachmodelle mit Akustik-, Sprach- und Aussprachedaten erstellen und trainieren. Benutzerdefinierte Sprachmodelle sind privat und können einen Wettbewerbsvorteil bieten.
Bei der Spracherkennung in Echtzeit wird das Audiomaterial transkribiert, während die Sprache von einem Mikrofon oder einer Datei erkannt wird. Verwenden Sie Spracherkennung in Echtzeit für Anwendungen, die Audiodaten in Echtzeit transkribieren müssen, z. B.:
Die API für schnelle Transkription wird verwendet, um Audiodateien synchron und viel schneller als Echtzeitaudio zu transkribieren. Verwenden Sie schnelle Transkription in den Szenarien, in denen Sie die Transkription einer Audioaufzeichnung so schnell wie möglich mit vorhersagbarer Latenz benötigen, z. B.:
Weitere Informationen zu den ersten Schritten mit der schnellen Transkription finden Sie unter Verwenden der API für schnelle Transkription.
Die Batch-Transkription wird für die Transkription großer Mengen an Audiomaterial im Speicher verwendet. Sie können per SAS-URI (Shared Access Signature) auf Audiodateien verweisen und Transkriptionsergebnisse asynchron empfangen. Verwenden Sie die Batchtranskription für Anwendungen, die Audiodaten in einem Massenvorgang transkribieren müssen, z. B.:
Mit der Sprachsynthese können Sie Eingabetext in menschlich klingende synthetische Sprache konvertieren. Verwenden Sie neuronale Stimmen. Dabei handelt es sich um menschenähnliche Stimmen, die von Deep Neural Networks unterstützt werden. Verwenden Sie die Markupsprache für Sprachsynthese (Speech Synthesis Markup Language, SSML), um Tonhöhe, Aussprache, Sprechgeschwindigkeit, Lautstärke usw. anzupassen und zu optimieren.
Die Sprachübersetzung ermöglicht Echtzeitübersetzungen in mehreren Sprachen für Ihre Anwendungen, Tools und Geräte. Verwenden Sie dieses Feature für die Übersetzung von Sprache in Sprache und Sprache in Text.
Bei der Sprachenerkennung werden anhand einer Liste unterstützter Sprachen die in der Audioquelle gesprochenen Sprachen identifiziert. Die Sprachenerkennung kann eigenständig oder in Kombination mit der Spracherkennung oder Sprachübersetzung verwendet werden.
Die Sprechererkennung bietet Algorithmen, mit denen Sprecher anhand ihrer individuellen Stimmmerkmale überprüft und identifiziert werden. Die Sprechererkennung wird verwendet, um zu ermitteln, wer spricht.
Die Aussprachebewertung bewertet die Aussprache und gibt den Rednern Feedback zur Genauigkeit und zum Redefluss der gesprochenen Audioinformationen. Mit dieser Aussprachebewertung erhalten Menschen, die Fremdsprachen lernen, direktes Feedback und können ihre Aussprache verbessern, sodass sie selbstbewusst sprechen und sich präsentieren können.
Absichtserkennung: Verwenden Sie die Spracherkennung mit Conversational Language Understanding (CLU), um Benutzerabsichten aus transkribierter Sprache abzuleiten und auf Sprachbefehle zu reagieren.
Sie können Azure KI Speech-Features in der Cloud oder lokal bereitstellen.
Mithilfe von Containern können Sie den Dienst näher an Ihre Daten heranbringen, um Compliance- und Sicherheitsanforderungen zu erfüllen oder anderen betrieblichen Anforderungen gerecht zu werden.
Die Bereitstellung des Speech-Diensts in Sovereign Clouds ist für einige Behörden und ihre Partner verfügbar. Die Azure Government-Cloud steht beispielsweise für US-Behörden und deren Partner zur Verfügung. Microsoft Azure, betrieben von 21Vianet, Cloud steht für Organisationen mit einer Geschäftspräsenz in China zur Verfügung. Weitere Informationen finden Sie unter Sovereign Clouds.
Speech Studio besteht aus einer Reihe von benutzeroberflächenbasierten Tools zum Erstellen und Integrieren von Features aus dem Azure KI Speech-Dienst in Ihre Anwendungen. Sie erstellen Projekte in Speech Studio mithilfe eines Ansatzes ohne Code und verweisen dann mithilfe des Speech SDK, der Speech CLI oder verschiedener REST-APIs auf die Ressourcen in Ihren Anwendungen.
Die Speech-Befehlszeilenschnittstelle ist ein Befehlszeilentool, mit dem der Speech-Dienst verwendet werden kann, ohne Code zu schreiben. Über die Speech-Befehlszeilenschnittstelle stehen die meisten Features des Speech SDK zur Verfügung, und einige erweiterte Features und Anpassungen sind in der Speech-Befehlszeilenschnittstelle vereinfacht.
Das Speech SDK (Software Development Kit) macht viele der Funktionen des Speech-Dienstes verfügbar, die Ihnen das Entwickeln sprachaktivierter Anwendungen ermöglichen. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar.
In einigen Fällen können oder sollten Sie das Speech SDK nicht verwenden. In diesen Fällen können Sie mithilfe der REST-APIs auf den Speech-Dienst zugreifen. Verwenden Sie z. B. die REST-APIs für die Batch-Transkription und Sprechererkennung.
Wir bieten Schnellstarts für viele gängige Programmiersprachen an. Jede Schnellstartanleitung enthält Informationen zu grundlegenden Entwurfsmustern und ist jeweils so konzipiert, dass Sie in weniger als zehn Minuten über ausführbaren Code verfügen. Die folgende Liste enthält Schnellstartanleitungen zu den einzelnen Features:
Beispielcode für den Speech-Dienst finden Sie auf GitHub. In den Beispielen werden gängige Szenarios wie etwa das Lesen von Audiodaten aus einer Datei oder einem Stream, die kontinuierliche und einmalige Erkennung oder die Verwendung benutzerdefinierter Modelle behandelt. Über die folgenden Links gelangen Sie zu den SDK- und REST-Beispielen:
Zu einem KI-System gehört nicht nur die Technologie, sondern auch die Personen, die das System verwenden, sowie die davon betroffenen Personen und die Umgebung, in der es bereitgestellt wird. Lesen Sie die Transparenzhinweise, um mehr über die verantwortungsvolle Nutzung und den Einsatz von KI in Ihren Systemen zu erfahren.
Ereignisse
Erstellen von KI-Apps und Agents
17. März, 21 Uhr - 21. März, 10 Uhr
Nehmen Sie an der Meetup-Serie teil, um skalierbare KI-Lösungen basierend auf realen Anwendungsfällen mit Mitentwicklern und Experten zu erstellen.
Jetzt registrierenSchulung
Modul
Vytváření aplikací s podporou řeči pomocí služeb Azure AI - Training
Vytvářejte aplikace s podporou řeči pomocí služeb Azure AI.
Zertifizierung
Microsoft Certified: Inženýr AI služby Azure Associate - Certifications
Návrh a implementace řešení Azure AI pomocí služeb Azure AI, Azure AI Search a Azure Open AI