Dar formato a un texto con la conversión de voz en texto

Article
15/09/2024

La conversión de voz en texto ofrece una matriz de características de formato que garantizan que el texto transcrito sea claro y legible. Consulte las secciones siguientes para obtener información general sobre cómo se usa cada característica para mejorar la claridad general de la salida de texto final.

ITN

La normalización inversa de un texto (ITN) es un proceso que convierte palabras habladas en su forma escrita. Por ejemplo, la palabra "cuatro" en un texto oral se convierte en su forma escrita, "4". El servicio de conversión de voz en texto completa este proceso y no es configurable. Algunos de los formatos de texto admitidos incluyen fechas, horas, decimales, monedas, direcciones, correos electrónicos y números de teléfono. Si habla de forma natural, el servicio le dará el formato adecuado al texto. En la tabla siguiente se muestran las reglas de ITN que se aplican a la salida de texto.

Voz reconocida	Display text
`that will cost nine hundred dollars`	`That will cost $900.`
`my phone number is one eight hundred, four five six, eight nine ten`	`My phone number is 1-800-456-8910.`
`the time is six forty five p m`	`The time is 6:45 PM.`
`I live on thirty five lexington avenue`	`I live on 35 Lexington Ave.`
`the answer is six point five`	`The answer is 6.5.`
`send it to support at help dot com`	`Send it to support@help.com.`

Uso de mayúsculas

Los modelos de conversión de voz en texto reconocen las palabras que deben ir con mayúscula inicial para mejorar la legibilidad, la precisión y la gramática. Por ejemplo, el servicio de voz capitaliza automáticamente los nombres y palabras adecuados al principio de una oración. En esta tabla se muestran algunos ejemplos.

Voz reconocida	Display text
`i got an x l t shirt`	`I got an XL t-shirt.`
`my name is jennifer smith`	`My name is Jennifer Smith.`
`i want to visit new york city`	`I want to visit New York City.`

Eliminación de las interrupciones

Al hablar, no es raro que haya personas que tartamudeen, dupliquen algunas palabras o usen interjecciones, como "um" o "eh". La conversión de voz en texto puede reconocer estos fenómenos y quitarlos del texto final. La eliminación de estas interrupciones es excelente para transcribir discursos improvisados en vivo, y así poder leerlos después. En esta tabla se muestran algunos ejemplos.

Voz reconocida	Display text
`i uh said that we can go to the uhmm movies`	`I said that we can go to the movies.`
`its its not that big of uhm a deal`	`It's not that big of a deal.`
`umm i think tomorrow should work`	`I think tomorrow should work.`

Signos de puntuación

La conversión de voz en texto puntúa automáticamente el texto para mejorar su claridad. La puntuación es útil para leer las transcripciones de llamadas o conversaciones. En esta tabla se muestran algunos ejemplos.

Voz reconocida	Display text
`how are you`	`How are you?`
`we can go to the mall park or beach`	`We can go to the mall, park, or beach.`

Al usar la conversión de voz en texto con reconocimiento continuo, puede configurar el Servicio de voz para que reconozca signos de puntuación explícitos. Así, puede decir los signos de puntuación en voz alta para que el texto sea más legible. Esto es especialmente útil en situaciones en las que desea usar signos de puntuación complejos sin tener que editar el texto más adelante. En esta tabla se muestran algunos ejemplos.

Voz reconocida	Display text
`they entered the room dot dot dot`	`They entered the room...`
`i heart emoji you period`	`I <3 you.`
`the options are apple forward slash banana forward slash orange period`	`The options are apple/banana/orange.`
`are you sure question mark`	`Are you sure?`

Use el SDK de Voz para habilitar el modo de dictado cuando use la conversión de voz en texto con reconocimiento continuo. Este modo hace que la instancia de configuración de voz interprete descripciones de palabras de estructuras de oración como puntuación.

speechConfig.EnableDictation();

C++

speechConfig->EnableDictation();

speechConfig.EnableDictation()

Java

speechConfig.enableDictation();

JavaScript

speechConfig.enableDictation();

objective-c

[self.speechConfig enableDictation];

Swift

self.speechConfig!.enableDictation()

Python

speech_config.enable_dictation()

Filtro de palabras soeces

Puede especificar si desea ocultar, quitar o mostrar las palabras soeces en el texto final transcrito. El ocultamiento reemplaza las palabras soeces por caracteres de asteriscos (*) para poder mantener el tono original del texto sin que resulte inapropiado en determinadas situaciones

Nota

Microsoft también se reserva el derecho de ocultar o quitar cualquier palabra que se considere inapropiada. El servicio de Voz no devolverá estas palabras, independientemente de si ha habilitado o no el filtrado de palabras soeces.

Las opciones del filtro de palabras soeces son las siguientes:

Masked: reemplaza letras de las palabras soeces por caracteres de asterisco (*). Este ocultamiento es la opción predeterminada.
Raw: incluye las palabras soeces textualmente.
Removed: quita las palabras soeces.

Por ejemplo, para quitar palabras soeces del resultado del reconocimiento de voz, establezca el filtro de palabras soeces en Removed, tal y como se muestra aquí:

speechConfig.SetProfanity(ProfanityOption.Removed);

C++

speechConfig->SetProfanity(ProfanityOption::Removed);

speechConfig.SetProfanity(common.Removed)

Java

speechConfig.setProfanity(ProfanityOption.Removed);

JavaScript

speechConfig.setProfanity(sdk.ProfanityOption.Removed);

objective-c

[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];

Swift

self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)

Python

speech_config.set_profanity(speechsdk.ProfanityOption.Removed)

Consola

spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

El filtro de palabras soeces se aplica al resultado Text y a las propiedades MaskedNormalizedForm. El filtro de palabras soeces no se aplica al resultado LexicalForm ni a las propiedades NormalizedForm. El filtro tampoco se aplica a los resultados de nivel de palabra.

Recursos addicionals

Documentació

Mejora de la precisión del reconocimiento con listas de frases - Azure AI services

Las listas de frases se pueden usar para personalizar los resultados del reconocimiento de voz en función del contexto.
Introducción a Habla personalizada: Servicio de voz - Azure AI services

Habla personalizada es un conjunto de herramientas en línea que permite evaluar y mejorar la precisión de la conversión de voz en texto en las aplicaciones, herramientas y productos.
Documentación de voz a texto: tutoriales y referencia de API (Servicios de Azure AI) - Azure AI services

La característica de conversión de voz en texto del servicio de voz, también conocida como reconocimiento de voz, permite la transcripción en tiempo real y por lotes de secuencias de audio en texto. Con la entrada de texto de referencia adicional, también se habilita la valoración de pronunciación en tiempo real y se proporciona a los oradores comentarios sobre la precisión y fluidez del audio hablado.
Inicio rápido de voz a texto - Azure AI services

En este inicio rápido, aprenderá a usar el servicio Voz para la conversión de voz en texto en tiempo real.
Reconocimiento de voz: Servicio Voz - Azure AI services

Aprenda cómo convertir voz en texto, incluida la construcción de objetos, los formatos de entrada de audio admitidos y las opciones de configuración del reconocimiento de voz.
Obtención de resultados del reconocimiento de voz: servicio de voz - Azure AI services

Obtenga información sobre cómo obtener resultados de reconocimiento de voz.
Introducción a la conversión de voz en texto: el servicio Voz - Azure AI services

Obtenga información general sobre las ventajas y funcionalidades de la característica de conversión de voz en texto del servicio de Voz.

Formació

Mòdul

Adición de los servicios de Azure AI al proyecto de realidad mixta - Training

En este curso, se explora el uso de los servicios de voz de Azure mediante su integración en una aplicación hololens2. También puede implementar el proyecto en HoloLens.

Esdeveniment

Crear aplicacions i agents d'IA

17 de març, 21 - 21 de març, 10

Uneix-te a la sèrie de trobades per crear solucions d'IA escalables basades en casos d'ús del món real amb altres desenvolupadors i experts.

Registreu-vos-hi ara

Comparteix a través de

Dar formato a un texto con la conversión de voz en texto

ITN

Uso de mayúsculas

Eliminación de las interrupciones

Signos de puntuación

Filtro de palabras soeces

Comentaris

Recursos addicionals

Comparteix a través de

Dar formato a un texto con la conversión de voz en texto

ITN

Uso de mayúsculas

Eliminación de las interrupciones

Signos de puntuación

Filtro de palabras soeces

Contenido relacionado

Comentaris

Recursos addicionals