Introducción

Completado

Azure Speech in Foundry Tools proporciona funcionalidades de conversión de voz a texto y de texto a voz que puede integrar en aplicaciones de inteligencia artificial. Estas funcionalidades permiten transcribir audio a texto y sintetizar voz de sonido natural a partir de texto.

Aunque puede llamar a estas funcionalidades directamente a través del SDK de Voz o las API REST, también puede ponerlas a disposición de un agente de INTELIGENCIA ARTIFICIAL a través del servidor de Protocolo de contexto del modelo de voz (MCP) de Azure. Este enfoque permite al agente controlar las tareas de voz en función de la solicitud de lenguaje natural de un usuario, sin necesidad de escribir código específico para cada operación de voz.

Por ejemplo, supongamos que trabaja para una empresa que necesita procesar llamadas de soporte técnico al cliente. El equipo debe transcribir llamadas grabadas a texto para su análisis y generar respuestas de audio que se puedan reproducir a los clientes. En lugar de crear integraciones independientes para la transcripción y la síntesis, puede crear un agente de inteligencia artificial que use el servidor MCP de Voz de Azure para realizar ambas tareas a través de una única conexión de herramienta.

En este módulo, aprenderá cómo funciona el servidor MCP de Voz de Azure, cómo conectarlo a un agente de IA en Microsoft Foundry y cómo crear una aplicación cliente que interactúe con el agente mediante programación.

Nota:

El servidor MCP de Voz de Azure está actualmente en versión preliminar pública. Los detalles descritos en este módulo están sujetos a cambios.