Uso de una canalización de transcripción de voz en texto para analizar conversaciones grabadas

Speech to Text
Text Analytics
Cognitive Services
Synapse Analytics
Logic Apps

El reconocimiento de voz y el análisis de las llamadas de clientes grabadas pueden proporcionar a la empresa información valiosa sobre las tendencias actuales, las deficiencias de los productos y los éxitos.

En la solución de ejemplo descrita en este artículo, se describe una canalización repetible para transcribir y analizar datos de conversaciones.

Architecture

La arquitectura consta de dos canalizaciones: una canalización de transcripción para convertir el audio en texto y una canalización de enriquecimiento y visualización.

Canalización de transcripción

Diagrama que muestra cómo ingerir voz y convertirla en texto mediante Azure Cognitive Services.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Los archivos de audio se cargan en una cuenta de Azure Storage mediante cualquier método admitido. Puede usar una herramienta basada en la interfaz de usuario como el Explorador de Azure Storage o usar un SDK o una API de almacenamiento.
  2. La carga en Azure Storage desencadena una aplicación lógica de Azure. La aplicación lógica accede a las credenciales necesarias en Azure Key Vault y realiza una solicitud a la API de transcripción por lotes del servicio de Voz.
  3. La aplicación lógica envía la llamada de archivos de audio al servicio de Voz, incluida la configuración opcional para la creación de diarios del hablante.
  4. El servicio voz completa la transcripción por lotes y carga los resultados de la transcripción en la cuenta de almacenamiento.

Canalización de enriquecimiento y visualización

Diagrama que muestra la canalización de enriquecimiento y visualización.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

  1. Se ejecuta una canalización de Azure Synapse Analytics para recuperar y procesar el texto del audio transcrito.
  2. La canalización envía el texto procesado mediante una llamada API al servicio de lenguaje. El servicio realiza varios enriquecimientos de procesamiento de lenguaje natural (NLP), como la minería de sentimientos y opiniones, la creación de resúmenes y el reconocimiento de entidades con nombre, tanto personalizado como creado previamente.
  3. Los datos procesados se almacenan en un grupo de SQL de Azure Synapse Analytics, donde se pueden servir a herramientas de visualización como Power BI.

Componentes

  • Azure Blob Storage. Almacenamiento de objetos seguro y escalable de forma masiva para cargas de trabajo nativas de nube, archivos, lagos de datos, informática de alto rendimiento y aprendizaje automático. En esta solución, almacena los archivos de audio y los resultados de la transcripción, y sirve como lago de datos para el análisis del flujo descendente.
  • Azure Logic Apps. Una plataforma de integración como servicio (iPaaS) que se basa en un entorno de ejecución en contenedores. En esta solución, integra el almacenamiento y los servicios inteligencia artificial de voz.
  • Servicio de Voz de Azure Cognitive Services. Una API basada en inteligencia artificial que proporciona funcionalidades de voz, como la conversión de voz en texto, de texto a voz, la traducción de voz y el reconocimiento del hablante. En esta solución, se utiliza su funcionalidad de transcripción por lotes.
  • Azure Cognitive Service para lenguaje. Un servicio administrado basado en inteligencia artificial que proporciona funcionalidades de lenguaje natural, como el análisis de sentimiento, la extracción de entidades y la respuesta a preguntas automatizada.
  • Azure Synapse Analytics. Un conjunto de servicios que proporcionan integración de datos, almacenamiento de datos empresariales y análisis de macrodatos. En esta solución, transforma y enriquece los datos de la transcripción, y sirve los datos a las herramientas de visualización del flujo descendente.
  • Power BI. Una herramienta de modelado de datos y análisis visual. En esta solución, presenta información de audio transcrita a los usuarios y a los responsables de la toma de decisiones.

Alternativas

Estos son algunos enfoques alternativos para esta arquitectura de solución:

  • Considere la posibilidad de configurar la cuenta de Blob Storage para usar un espacio de nombres jerárquico. Esta configuración proporciona controles de seguridad basados en ACL y puede mejorar el rendimiento de algunas cargas de trabajo de macrodatos.
  • Es posible que pueda usar Azure Functions como herramienta de integración con enfoque de código en lugar de Logic Apps o canalizaciones de Azure Synapse, según el tamaño y la escala de la carga de trabajo.

Detalles del escenario

Los centros de atención al cliente son una parte integral del éxito de muchas empresas. Esta solución usa la API de Voz de Azure Cognitive Services para la transcripción de audio y la creación de diarios de las llamadas de clientes grabadas. Se usa Azure Synapse Analytics para procesar y realizar tareas de NLP, como el análisis de sentimiento y el reconocimiento de entidades con nombre personalizado mediante llamadas API a Azure Cognitive Service para lenguaje.

Puede usar los servicios y la canalización que se describen aquí para procesar el texto transcrito para reconocer y quitar la información confidencial, realizar análisis de sentimiento y mucho más. Puede escalar los servicios y la canalización para dar cabida a cualquier volumen de datos grabados.

Posibles casos de uso

Esta solución puede proporcionar valor a las organizaciones de muchos sectores, como las telecomunicaciones, los servicios financieros y el gobierno. Se aplica a cualquier organización que grabe conversaciones. En particular, los centros de llamadas internos o de atención al cliente pueden beneficiarse de la información derivada de esta solución.

Consideraciones

Estas consideraciones implementan los pilares del Azure Well-Architected Framework, que es un conjunto de principios rectores que puede utilizar para mejorar la calidad de una carga de trabajo. Para más información, consulte Marco de buena arquitectura de Microsoft Azure.

Seguridad

La seguridad proporciona garantías contra ataques deliberados y el abuso de datos y sistemas valiosos. Para más información, consulte Introducción al pilar de seguridad.

  • La solicitud a la API de Voz puede incluir un identificador URI de firma de acceso compartido (SAS) para un contenedor de destino en Azure Storage. Un identificador URI de SAS permite al servicio de Voz generar directamente los archivos de transcripción en la ubicación del contenedor. Si la organización no permite el uso de identificadores URI de SAS para el almacenamiento, debe implementar una función para sondear periódicamente la API de Voz en busca de los recursos completados.
  • Las credenciales, como las claves de API o de cuenta, se deben almacenar en Azure Key Vault como secretos. Configure Logic Apps y las canalizaciones de Azure Synapse para acceder al almacén de claves mediante identidades administradas para evitar el almacenamiento de secretos en la configuración o el código de la aplicación.
  • Los archivos de audio almacenados en el blob pueden contener datos confidenciales de los clientes. Si hay varios clientes que usan esta solución, debe restringir el acceso a estos archivos. Use el espacio de nombres jerárquico en la cuenta de almacenamiento y aplique permisos de nivel de carpeta y de archivo para limitar el acceso solo a la instancia de Azure Active Directory necesaria.

Optimización de costos

La optimización de costos trata de buscar formas de reducir los gastos innecesarios y mejorar las eficiencias operativas. Para más información, vea Información general del pilar de optimización de costos.

Todos los servicios de Azure descritos en esta arquitectura proporcionan una opción para la facturación de pago por uso, por lo que los costos de la solución se escalan linealmente.

Azure Synapse proporciona una opción para los grupos de SQL sin servidor, por lo que el recurso de proceso de la carga de trabajo de almacenamiento de datos se puede activar a petición. Si no usa Azure Synapse para atender otros casos de uso del flujo descendente, considere la posibilidad de usar las opciones sin servidor para reducir los costos.

Consulte Introducción al pilar de optimización de costos para conocer más estrategias de optimización de costos.

Para conocer los precios de los servicios sugeridos aquí, consulte esta estimación de la Calculadora de precios de Azure.

Eficiencia del rendimiento

La eficiencia del rendimiento es la capacidad de la carga de trabajo para escalar con el fin de satisfacer de manera eficiente las demandas que los usuarios hayan ejercido sobre ella. Para obtener más información, vea Resumen del pilar de eficiencia del rendimiento.

La API de Voz por lotes está diseñada para un gran volumen, pero otras API de Cognitive Services podrían tener límites de solicitudes para cada nivel de suscripción. Considere la posibilidad de incluir en contenedores estas API para evitar la limitación del procesamiento de grandes volúmenes. Los contenedores proporcionan flexibilidad de implementación, ya sea en la nube o en el entorno local. También puede mitigar los efectos secundarios de los lanzamientos de nueva versión mediante el uso de contenedores. Para más información, consulte Compatibilidad con contenedores en Azure Cognitive Services.

Colaboradores

Microsoft mantiene este artículo. Originalmente lo escribieron los siguientes colaboradores.

Creadores de entidad de seguridad:

Otro colaborador:

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes