Integrieren und Verwenden der Spracherkennung und Transkription

2 Minuten

Der Speech-Dienst vereint Sprache-in-Text, Text-zu-Sprache und die Sprachübersetzung in einem einzelnen Azure-Abonnement. Mithilfe der Speech CLI, dem Speech SDK, dem Speech Devices SDK, Speech Studio oder den REST-APIs können Sie Ihre Anwendungen, Tools und Geräte im Handumdrehen sprachfähig machen.

Spracherkennung

Der Dienst „Sprechererkennung“ bietet Algorithmen, mit denen Sprecher anhand ihrer individuellen Stimmmerkmale mithilfe von Sprachbiometrie überprüft und identifiziert werden. Es wird verwendet, um die Frage „Wer spricht?“ zu beantworten. Zunächst stellen Sie Audiotrainingsdaten für einen einzelnen Sprecher bereit, wodurch ein Registrierungsprofil auf Basis der besonderen Stimmmerkmale des Sprechers erstellt wird. Anschließend können Sie anhand dieses Profils eine Gegenprobe für Audiostimmenbeispiele durchführen und herausfinden, ob es sich beim Sprecher um dieselbe Person handelt (Sprecherüberprüfung). Sie können Audiostimmenbeispiele mit einer Gruppe registrierter Sprecherprofile vergleichen, um festzustellen, ob eine Übereinstimmung mit einem Profil in der Gruppe vorliegt (Sprecheridentifikation). Im Gegensatz dazu verwendet die Sprecherdiarisierung einen Batchvorgang, um Audiodatenströme nach Sprecheridentität zu gruppieren, was bedeutet, dass verschiedene Sprecher jeweils über eigene Audiosegmente verfügen.

Transkription

Bei der Transkription handelt es sich um REST-API-Vorgänge, mit denen Sie Audiodaten im Speicher transkribieren können. Sie können auf Audiodateien mit einem SAS-URI (Shared Access Signature) verweisen und asynchron Transkriptionsergebnisse empfangen.

MRTK-Sprachbefehle

Wie die Windows-Spracheingabe erstellen die Anbieter von Spracheingaben keine Controller, sondern ermöglichen es Ihnen, Schlüsselwörter zu definieren, die bei der Erkennung von Spracheingabeereignissen ausgelöst werden. Die Schlüsselwörter für die Erkennung konfigurieren Sie im Profil „Sprachbefehle“ im Profil „Eingabesystem“. Für alle Befehle können Sie außerdem die folgenden Schritte ausführen:

Wählen Sie eine Eingabeaktion aus, die dem Befehl zugeordnet werden soll. Auf diese Weise können Sie beispielsweise das Schlüsselwort „Select“ (Auswählen) verwenden, um den gleichen Effekt wie mit einem Klick mit der linken Maustaste zu erzielen, indem beide der gleichen Aktion zugeordnet werden.
Geben Sie einen Schlüsselcodes an, der das gleiche Sprachereignis generiert, wenn er verwendet wird.
Fügen Sie einen Lokalisierungsschlüssel hinzu, der in UWP-Apps verwendet wird, um das lokalisierte Schlüsselwort aus den App-Ressourcen abzurufen.

Sprach-SDK

Das Speech Software Development Kit (SDK) stellt viele Funktionen des Speech-Diensts zur Verfügung, mit denen Sie sprachfähige Anwendungen entwickeln können. Das Speech SDK ist in vielen Programmiersprachen und für alle Plattformen verfügbar. Das Speech SDK macht viele Features (aber nicht alle) des Spracherkennungsdienst verfügbar. Die Funktionen des Speech SDK sind häufig mit Szenarien verknüpft. Das Speech SDK eignet sich ideal für Echtzeit- und Nicht-Echtzeitszenarios, in denen lokale Geräte, Dateien, Azure Blob Storage und sogar Eingabe- und Ausgabestreams eingesetzt werden. Wenn ein Szenario für das Speech SDK nicht zugänglich ist, suchen Sie nach einer REST-API-Alternative.

Räumliche Wahrnehmung

Räumliche Wahrnehmung bietet programmgesteuerten Zugriff auf Daten für die räumliche Zuordnung und liefert Mixed Reality-Apps Informationen zu Oberflächen in anwendungsspezifischen Raumbereichen in der Nähe von Benutzern. Sie sollten die Funktion für die räumliche Wahrnehmung nur deklarieren, wenn Ihre App diese Oberflächengitter explizit verwendet. Die Funktion ist nicht erforderlich, damit Mixed Reality-Apps holografisches Rendering basierend auf der Kopfhaltung von Benutzer*innen durchführen können.

Internetclientserver

Der Internetclientserver ermöglicht zudem Peer-zu-Peer-Szenarien (P2P), in denen die App auf eingehende Netzwerkverbindungen lauschen muss.

Clientserver des privaten Netzwerks

Der Clientserver für private Netzwerke bietet ein- und ausgehenden Zugriff auf private und geschäftliche Netzwerke durch die Firewall. Diese Funktion wird in der Regel für Spiele, die über das lokale Netzwerk (Local Area Network, LAN) kommunizieren, und für Apps verwendet, die Daten auf verschiedenen lokalen Geräten gemeinsam nutzen.

Weiter