Datos y privacidad para conversión de voz en texto

2025-06-25

Importante

Las traducciones no en inglés solo se proporcionan para mayor comodidad. Consulte la EN-US versión de este documento para la versión vinculante.

Nota:

Este artículo se proporciona únicamente con fines informativos y no para proporcionar asesoramiento legal. Le recomendamos encarecidamente que busque asesoramiento legal especializado al implementar servicios de voz.

En este artículo se proporcionan algunos detalles generales sobre cómo la conversión de voz en texto procesa los datos proporcionados por los clientes. Tenga en cuenta que los datos de audio de los seres humanos que hablan y las transcripciones de texto relacionadas pueden considerarse datos personales o confidenciales en virtud de diversas normativas y leyes de privacidad, ya que contiene no solo la voz de los seres humanos, sino que el contenido del audio también puede contener información personal en función del contexto en el que se recopiló el audio. Los datos de audio y las transcripciones de texto relacionadas también se pueden regular en virtud de varias leyes de comunicaciones u otras leyes y reglamentos. Como recordatorio importante, usted es responsable de la implementación de esta tecnología y es necesario obtener todos los permisos necesarios para el procesamiento de los datos, así como las licencias, permisos u otros derechos de propiedad necesarios para el contenido que escriba en el servicio de voz a texto. Es su responsabilidad cumplir con todas las leyes y regulaciones aplicables en su jurisdicción.

¿Qué datos procesa la conversión de voz en texto?

La conversión de voz en texto procesa los siguientes tipos de datos:

Entrada de audio o audio de voz: Todas las características de voz en texto aceptan audio de voz como entrada que se transmite a través de Speech SDK/REST API al punto de conexión del servicio. En la transcripción por lotes, la entrada de audio se enviará a una ubicación de almacenamiento indicada por el cliente, y el servicio voz accede a la entrada de audio y procesa la entrada de audio con el fin de proporcionar los servicios de transcripción solicitados. Consulte más información sobre cómo especificar el almacenamiento en Uso de la transcripción por lotes.
Texto de transcripción de entrada: En la evaluación de pronunciación, el texto transcrito se envía junto con un audio de voz de entrada como texto "correcto". Las pronunciaciones se evalúan en función de las transcripciones de entrada.
Transcripción de la traducción de voz: Cuando se usa la característica de traducción de voz, el texto transcrito que genera la voz en texto se traduce en un idioma especificado a través del servicio Translator.

El servicio de traducción de texto solo se usa para convertir texto de un idioma a otro. El servicio voz no conserva ningún dato de entrada o salida después de la finalización de una solicitud de traducción. Consulte ¿Qué es el servicio Translator para obtener más información sobre el servicio de traducción de texto?

Si los usuarios necesitan texto transcrito o traducido en formato de audio, la característica envía el texto de salida de texto a voz. De nuevo, no se conserva ningún dato en el procesamiento de datos de texto a voz.

¿Cómo procesa el reconocimiento de voz a texto los datos?

Conversión de voz en texto en tiempo real

Cuando una aplicación cliente envía la entrada de audio a texto, el motor de reconocimiento de voz analiza el audio y lo convierte en texto. Basándose en sus características de comprensión acústica y lingüística o del lenguaje, la conversión de voz en texto selecciona palabras y frases candidatas que pueden ser expresadas en la entrada de audio. La salida de transcripción representa la mejor inferencia o predicción en formato de texto de lo que se habló en la entrada de audio.

En el caso de la conversión de voz en texto en tiempo real, la entrada de audio solo se procesa en la memoria del servidor de Azure y no se almacenan datos en reposo. Todos los datos en tránsito se cifran para la protección. Consulte Trusted Cloud: security, privacy, compliance, resiliency, and IP (Nube de confianza: seguridad, privacidad, cumplimiento, resistencia e IP ) para más información sobre la protección de la privacidad y la seguridad en toda Azure.

Transcripción de Batch

En la transcripción por lotes, los clientes especifican su ubicación de almacenamiento elegida tanto de archivos de texto de entrada de audio como de transcripción de salida para que el servicio Voz acceda, procese y proporcione la salida de transcripción. El cliente controla el almacenamiento de estos datos, incluida la retención de estos datos. Los clientes pueden establecer un tiempo de retención para los archivos de texto de transcripción generados mediante un parámetro denominado "timeToLive". Consulte Transcripción por lotes: Propiedades de configuración para obtener más detalles.

Consulte los flujos de datos para cada característica de conversión de voz en texto:

Diagrama del flujo de datos para Conversión de voz en texto.

Diarización/separación de hablantes

Esta característica está disponible para la API en tiempo real y por lotes. Cuando los clientes habilitan la opción de separación del hablante (diarización) (deshabilitada de forma predeterminada), el motor de voz en texto analiza y extrae señales de características de voz únicas de la entrada de audio para diferenciar el audio entre altavoces. Estas señales de características de voz se utilizan y conservan temporalmente con el único propósito de anotar la salida de transcripción con marcadores junto al texto del Hablante 1 (Invitado-1) o Hablante 2 (Invitado-2). Tras la finalización del proceso, se descartan todos los datos de señal utilizados para separar los altavoces. La característica de separación del hablante admite la separación de dos o más altavoces en un solo archivo de audio. La separación de hablantes no admite el registro para el reconocimiento de la identidad del hablante ni la capacidad de seguir a hablantes únicos en varios archivos de audio.

Detección de idioma

La detección de idioma es similar al reconocimiento de voz, salvo que el modelo calcula probabilidades de asignación entre fonemas e idiomas. Cada idioma tiene combinaciones fonéticas y fonéticas específicas, que caracterizan el idioma. El modelo de detección de idioma identifica las características de los phonemes para calcular la probabilidad de idiomas usados en una voz de entrada.

Traducción de voz

Cuando se usa la traducción de voz, en primer lugar, se usa una entrada de audio para generar texto transcrito por máquina con voz en texto. A continuación, el texto transcrito por máquina se envía al servicio de traducción de texto para convertir el texto (en el idioma de origen) a otro idioma. Si los clientes necesitan texto traducido en formato de audio, esta característica puede enviar el texto traducido a texto a voz. Los clientes tienen la opción de generar solo texto traducido o salida de voz traducida.

Contenedores de voz

Con los contenedores de voz, los clientes implementan las API de servicios de voz en su propio entorno a través de contenedores de Docker. Dado que todos los componentes de voz se ejecutan en el entorno controlado de los clientes, las entradas de datos de audio y las salidas de transcripción se procesan dentro del contenedor de los clientes y no se envían al servicio de voz basado en la nube. Consulte Instalación y ejecución de contenedores de Docker para las API del servicio voz para obtener más información.

Seguridad de los datos de los clientes en el contenedor de voz

La seguridad de los datos del cliente es responsabilidad compartida. Puede encontrar detalles sobre el modelo de seguridad de los contenedores de Azure AI, como el contenedor de voz, en seguridad de contenedores de Azure AI Services.

Usted es responsable de proteger y mantener el equipo y la infraestructura necesarios para operar contenedores de voz ubicados en su entorno local, como el dispositivo perimetral y la red.

Para obtener más información sobre los compromisos de privacidad y seguridad de Microsoft, visite el Centro de confianza de Microsoft.

Almacenamiento y retención de datos

Sin seguimiento de datos

Al realizar conversión de voz en tiempo real en texto, evaluación de pronunciación y traducción de voz, Microsoft no conserva ni almacena los datos proporcionados por los clientes. En la transcripción por lotes, los clientes especifican sus propias ubicaciones de almacenamiento para enviar la entrada de audio. El texto de transcripción generado se puede almacenar en el propio almacenamiento del cliente o en el almacenamiento de Microsoft si no se especifica ningún almacenamiento. Si las transcripciones de salida se almacenan en el almacenamiento de Microsoft, los clientes pueden eliminar los datos llamando a una API de eliminación o estableciendo el parámetro timeToLive para eliminar automáticamente los datos en un tiempo especificado. Consulte más detalles en Uso de la transcripción por lotes: servicio voz: servicios de Azure AI.