Erste Schritte mit Sprachfeatures in Azure

Abgeschlossen

Microsoft Azure bietet sowohl Funktionalitäten für Spracherkennung als auch Sprachsynthese über den Azure KI Speech-Dienst, der die folgenden Anwendungsprogrammierschnittstellen (APIs) enthält:

  • Die Spracherkennungs-API
  • Die Sprachsynthese-API

Azure-Ressourcen für Azure KI Speech

Um Azure KI Speech in einer Anwendung zu verwenden, müssen Sie in Ihrem Azure-Abonnement eine entsprechende Ressource erstellen. Sie können einen der folgenden Ressourcentypen erstellen:

  • Eine Speech-Ressource – Wählen Sie diesen Ressourcentyp aus, wenn Sie nur Azure KI Speech verwenden oder den Zugriff auf und die Abrechnung der Ressource getrennt von anderen Diensten verwalten möchten.
  • Eine Azure KI Services-Ressource – Wählen Sie diesen Ressourcentyp aus, wenn Sie Azure KI Speech in Kombination mit anderen Azure KI Services verwenden und den Zugriff auf und die Abrechnung für diese Dienste gemeinsam verwalten möchten.

Die Spracherkennungs-API

Sie können die Azure KI-API für Spracherkennung verwenden, um eine Echtzeit- oder Batchtranskription von Audioinhalten in ein Textformat durchführen. Die Audioquelle für die Transkription kann eine Echtzeit-Audioübertragung von einem Mikrofon oder einer Audiodatei sein.

Das Modell, das von der Spracherkennungs-API verwendet wird, basiert auf dem von Microsoft trainierten universellen Sprachmodell. Die Daten für das Modell sind Eigentum von Microsoft und werden in Microsoft Azure bereitgestellt. Das Modell ist für zwei Szenarios optimiert: Unterhaltung und Diktat. Sie können auch Ihre eigenen benutzerdefinierten Modelle erstellen und trainieren, einschließlich für Akustik, Sprache und Aussprache, wenn die vorgefertigten Modelle von Microsoft nicht die benötigten Inhalte bieten.

Echtzeittranskription

Mit der Spracherkennung in Echtzeit können Sie Text in Audiostreams transkribieren. Sie können die Echtzeittranskription für Präsentationen, Demos oder andere Szenarios verwenden, in denen eine Person spricht.

Damit die Echtzeittranskription funktioniert, muss Ihre Anwendung auf eingehende Audiosignale von einem Mikrofon oder einer anderen Audioeingangsquelle wie einer Audiodatei warten. Ihr Anwendungscode überträgt das Audio an den Dienst, der den transkribierten Text zurückgibt.

Batchtranskription

Nicht alle Spracherkennungsszenarios sind in Echtzeit. Möglicherweise sind Audioaufnahmen auf einer Dateifreigabe, einem Remoteserver oder sogar in Azure Storage gespeichert. Sie können auf Audiodateien mit einem SAS-URI (Shared Access Signature) verweisen und asynchron Transkriptionsergebnisse empfangen.

Die Batchtranskription sollte asynchron ausgeführt werden, da die Batchaufträge auf Basis bester Leistung geplant sind. Normalerweise wird ein Auftrag innerhalb von Minuten nach der Anforderung ausgeführt. Es gibt jedoch keine Schätzung, wann ein Auftrag in den laufenden Zustand wechselt.

Die Sprachsynthese-API

Mit der Sprachsynthese-API können Sie Texteingaben in hörbare Sprache umwandeln, die entweder direkt über einen Computerlautsprecher wiedergegeben oder in eine Audiodatei geschrieben werden kann.

Sprachsynthesestimmen

Wenn Sie die Sprachsynthese-API verwenden, können Sie die Stimme angeben, die zum Sprechen des Texts verwendet werden soll. Dieses Feature bietet Ihnen die Flexibilität, Ihre Sprachsyntheselösung zu personalisieren und ihr einen bestimmten Charakter zu verleihen.

Der Dienst umfasst mehrere vordefinierte Stimmen mit Unterstützung für mehrere Sprachen und regionaler Aussprache, einschließlich neutralen Stimmen und Stimmen, die neuronale Netzwerke verwenden, um allgemeine Einschränkungen bei der Sprachsynthese in Bezug auf die Intonation zu überwinden, was zu einer natürlicher klingenden Stimme führt. Sie können auch benutzerdefinierte Stimmen entwickeln und diese mit der Sprachsynthese-API verwenden

Unterstützte Sprachen

Sowohl die Spracherkennungs- als auch die Sprachsynthese-APIs unterstützen eine Vielzahl von Sprachen. Verwenden Sie die folgenden Links, um Details zu den unterstützten Sprachen zu finden: