Einführung
Azure Speech in Foundry Tools bietet Sprach-zu-Text- und Text-zu-Sprache-Funktionen, die Sie in KI-Anwendungen integrieren können. Mit diesen Funktionen können Sie Audio in Text transkribieren und natürlich klingende Sprache aus Text synthetisieren.
Sie können diese Funktionen zwar direkt über das Speech SDK oder REST-APIs aufrufen, sie können sie aber auch einem KI-Agent über den Azure Speech Model Context Protocol (MCP)-Server zur Verfügung stellen. Mit diesem Ansatz kann der Agent Sprachaufgaben basierend auf der Anforderung natürlicher Sprache eines Benutzers verarbeiten, ohne dass Sie für jeden Sprachvorgang spezifischen Code schreiben müssen.
Angenommen, Sie arbeiten für ein Unternehmen, das Kundensupportanrufe verarbeiten muss. Ihr Team muss aufgezeichnete Anrufe für die Analyse an Text transkribieren und Audioantworten generieren, die für Kunden wiedergegeben werden können. Anstatt separate Integrationen für Transkription und Synthese zu erstellen, können Sie einen KI-Agent erstellen, der den Azure Speech MCP-Server verwendet, um beide Aufgaben über eine einzige Toolverbindung auszuführen.
In diesem Modul erfahren Sie, wie der Azure Speech MCP-Server funktioniert, wie Sie ihn mit einem KI-Agent in Microsoft Foundry verbinden und wie Sie eine Clientanwendung erstellen, die programmgesteuert mit dem Agent interagiert.
Hinweis
Der Azure Speech MCP-Server befindet sich derzeit in der öffentlichen Vorschau. Details, die in diesem Modul beschrieben werden, können sich ändern.