Esdeveniment
Crea aplicacions intel·ligents
17 de març, 21 - 21 de març, 10
Uneix-te a la sèrie de trobades per crear solucions d'IA escalables basades en casos d'ús del món real amb altres desenvolupadors i experts.
Registreu-vos-hi araAquest navegador ja no s’admet.
Feu l’actualització al Microsoft Edge per aprofitar les característiques més recents, les actualitzacions de seguretat i l’assistència tècnica.
El servicio Voz de Azure AI ofrece funcionalidades avanzadas de voz a texto. Esta característica admite la transcripción por lotes y en tiempo real, lo que proporciona soluciones versátiles para convertir secuencias de audio en texto.
El servicio de conversión de voz en texto ofrece las siguientes características principales:
La conversión de voz en tiempo real en texto transcribe el audio a medida que se reconoce desde un micrófono o archivo. Es ideal para las aplicaciones que requieren transcripción inmediata, como:
Se puede acceder a la conversión de voz en texto en tiempo real a través del SDK de Voz, la CLI de Voz y la API REST, lo que permite la integración en varias aplicaciones y flujos de trabajo. La conversión de voz en texto en tiempo real está disponible a través del SDK de voz, la CLI de voz y API de REST de Speech to Text para audio corto.
La API de Transcripción rápida se usa para transcribir archivos de audio con resultados de forma sincrónica y más rápidos que en el audio en tiempo real. Use la transcripción rápida en los escenarios en los que necesite la transcripción de una grabación de audio lo más rápido posible con una latencia predecible, como los siguientes:
Para empezar a trabajar con la transcripción rápida, consulte usar la API de transcripción rápida.
La transcripción por lotes está diseñada para transcribir grandes cantidades de audio almacenados en archivos. Este método procesa audio de forma asincrónica y es adecuado para:
La transcripción por lotes está disponible a través de:
API de RESTREST de conversión de voz en texto: facilita el procesamiento por lotes con la flexibilidad de las llamadas RESTful. Para empezar, consulte Uso de la transcripción por lotes y ejemplos de transcripción por lotes.
CLI de Voz: admite la transcripción en tiempo real y por lotes, lo que facilita la administración de tareas de transcripción. Para obtener ayuda sobre la CLI de Voz con las transcripciones por lotes, ejecute el siguiente comando:
spx help batch transcription
Con la voz personalizada puede evaluar y mejorar la precisión del reconocimiento de voz para sus aplicaciones y productos. Se puede usar un modelo de voz personalizado para la conversión de voz en texto en tiempo real, la traducción de voz y la transcripción por lotes.
Propina
No se requiere un punto de conexión de implementación hospedado para usar la voz personalizada con la API de transcripción de Batch. Es posible conservar los recursos si el modelo de voz personalizado solo se usa para la transcripción por lotes. Para más información, consulte Precios del servicio de voz.
De forma predeterminada, el reconocimiento de voz utiliza un modelo de lenguaje universal como modelo base que se entrena con datos que son propiedad de Microsoft y refleja el idioma hablado que se usa habitualmente. El modelo base está entrenado previamente con dialectos y fonética que representan varios dominios comunes. Al hacer una solicitud de reconocimiento de voz, el modelo base más reciente para cada idioma admitido se usa de manera predeterminada. El modelo base funciona bien en la mayoría de los escenarios de reconocimiento de voz.
La voz personalizada permite adaptar el modelo de reconocimiento de voz para satisfacer mejor las necesidades específicas de la aplicación. Esto puede ser especialmente útil para:
Para más información sobre la voz personalizada, consulte la información general de voz personalizada y la documentación de la API REST de conversión de voz en texto.
Para obtener más información sobre las opciones de personalización por idioma y configuración regional, consulte la documentación sobre el soporte de idiomas y voz para el servicio Speech.
Estos son algunos ejemplos prácticos de cómo puede usar la conversión de voz en texto de Azure AI:
Caso de uso | Escenario | Solución |
---|---|---|
Transcripciones y subtítulos de reuniones en directo | Una plataforma de eventos virtuales debe proporcionar subtítulos en tiempo real para los seminarios web. | Integre la conversión de voz a texto en tiempo real mediante el SDK de voz para transcribir el contenido hablado en subtítulos mostrados en directo durante el evento. |
Mejora del servicio al cliente | Un centro de llamadas quiere ayudar a los agentes al proporcionar transcripciones en tiempo real de llamadas de clientes. | Use la voz en tiempo real para texto a través de la CLI de Voz para transcribir llamadas, lo que permite a los agentes comprender y responder mejor a las consultas de los clientes. |
Subtitulación de vídeos | Una plataforma de alojamiento de vídeos quiere generar rápidamente un conjunto de subtítulos para un vídeo. | Use la transcripción rápida para obtener rápidamente un conjunto de subtítulos para todo el vídeo. |
Herramientas educativas | Una plataforma de aprendizaje electrónico tiene como objetivo proporcionar transcripciones para conferencias de vídeo. | Aplique la transcripción por lotes a través de la API REST de conversión de voz a texto para procesar vídeos de conferencias pre grabados, generando transcripciones de texto para los estudiantes. |
Documentación de atención sanitaria | Un proveedor de atención sanitaria debe documentar las consultas de pacientes. | Use la conversión de voz en tiempo real en texto para el dictado, lo que permite a los profesionales sanitarios hablar sus notas y transcribirlas al instante. Use un modelo personalizado para mejorar el reconocimiento de términos médicos específicos. |
Medios de comunicación y ocio | Una empresa de medios quiere crear subtítulos para un gran archivo de vídeos. | Use la transcripción por lotes para procesar los archivos de vídeo de forma masiva y generar subtítulos precisos para cada vídeo. |
Estudio de mercado | Una empresa de investigación de mercado debe analizar los comentarios de los clientes de las grabaciones de audio. | Emplee la transcripción por lotes para convertir comentarios de audio en texto, lo que facilita el análisis y la extracción de conclusiones. |
Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea las notas sobre transparencia para obtener información sobre el uso responsable de la inteligencia artificial y la implementación en los sistemas.
Esdeveniment
Crea aplicacions intel·ligents
17 de març, 21 - 21 de març, 10
Uneix-te a la sèrie de trobades per crear solucions d'IA escalables basades en casos d'ús del món real amb altres desenvolupadors i experts.
Registreu-vos-hi araFormació
Mòdul
Creación de aplicaciones habilitadas para voz con Servicios de Azure AI - Training
Creación de aplicaciones habilitadas para voz con Servicios de Azure AI.
Certificació
Microsoft Certified: Aspectos básicos de Azure AI - Certifications
Demostrar conceptos fundamentales de inteligencia artificial relacionados con el desarrollo de software y servicios de Microsoft Azure para crear soluciones de inteligencia artificial.