Esdeveniment
Crear aplicacions i agents d'IA
17 de març, 21 - 21 de març, 10
Uneix-te a la sèrie de trobades per crear solucions d'IA escalables basades en casos d'ús del món real amb altres desenvolupadors i experts.
Registreu-vos-hi araAquest navegador ja no s’admet.
Feu l’actualització al Microsoft Edge per aprofitar les característiques més recents, les actualitzacions de seguretat i l’assistència tècnica.
La conversión de voz en texto ofrece una matriz de características de formato que garantizan que el texto transcrito sea claro y legible. Consulte las secciones siguientes para obtener información general sobre cómo se usa cada característica para mejorar la claridad general de la salida de texto final.
La normalización inversa de un texto (ITN) es un proceso que convierte palabras habladas en su forma escrita. Por ejemplo, la palabra "cuatro" en un texto oral se convierte en su forma escrita, "4". El servicio de conversión de voz en texto completa este proceso y no es configurable. Algunos de los formatos de texto admitidos incluyen fechas, horas, decimales, monedas, direcciones, correos electrónicos y números de teléfono. Si habla de forma natural, el servicio le dará el formato adecuado al texto. En la tabla siguiente se muestran las reglas de ITN que se aplican a la salida de texto.
Voz reconocida | Display text |
---|---|
that will cost nine hundred dollars |
That will cost $900. |
my phone number is one eight hundred, four five six, eight nine ten |
My phone number is 1-800-456-8910. |
the time is six forty five p m |
The time is 6:45 PM. |
I live on thirty five lexington avenue |
I live on 35 Lexington Ave. |
the answer is six point five |
The answer is 6.5. |
send it to support at help dot com |
Send it to support@help.com. |
Los modelos de conversión de voz en texto reconocen las palabras que deben ir con mayúscula inicial para mejorar la legibilidad, la precisión y la gramática. Por ejemplo, el servicio de voz capitaliza automáticamente los nombres y palabras adecuados al principio de una oración. En esta tabla se muestran algunos ejemplos.
Voz reconocida | Display text |
---|---|
i got an x l t shirt |
I got an XL t-shirt. |
my name is jennifer smith |
My name is Jennifer Smith. |
i want to visit new york city |
I want to visit New York City. |
Al hablar, no es raro que haya personas que tartamudeen, dupliquen algunas palabras o usen interjecciones, como "um" o "eh". La conversión de voz en texto puede reconocer estos fenómenos y quitarlos del texto final. La eliminación de estas interrupciones es excelente para transcribir discursos improvisados en vivo, y así poder leerlos después. En esta tabla se muestran algunos ejemplos.
Voz reconocida | Display text |
---|---|
i uh said that we can go to the uhmm movies |
I said that we can go to the movies. |
its its not that big of uhm a deal |
It's not that big of a deal. |
umm i think tomorrow should work |
I think tomorrow should work. |
La conversión de voz en texto puntúa automáticamente el texto para mejorar su claridad. La puntuación es útil para leer las transcripciones de llamadas o conversaciones. En esta tabla se muestran algunos ejemplos.
Voz reconocida | Display text |
---|---|
how are you |
How are you? |
we can go to the mall park or beach |
We can go to the mall, park, or beach. |
Al usar la conversión de voz en texto con reconocimiento continuo, puede configurar el Servicio de voz para que reconozca signos de puntuación explícitos. Así, puede decir los signos de puntuación en voz alta para que el texto sea más legible. Esto es especialmente útil en situaciones en las que desea usar signos de puntuación complejos sin tener que editar el texto más adelante. En esta tabla se muestran algunos ejemplos.
Voz reconocida | Display text |
---|---|
they entered the room dot dot dot |
They entered the room... |
i heart emoji you period |
I <3 you. |
the options are apple forward slash banana forward slash orange period |
The options are apple/banana/orange. |
are you sure question mark |
Are you sure? |
Use el SDK de Voz para habilitar el modo de dictado cuando use la conversión de voz en texto con reconocimiento continuo. Este modo hace que la instancia de configuración de voz interprete descripciones de palabras de estructuras de oración como puntuación.
speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()
Puede especificar si desea ocultar, quitar o mostrar las palabras soeces en el texto final transcrito. El ocultamiento reemplaza las palabras soeces por caracteres de asteriscos (*) para poder mantener el tono original del texto sin que resulte inapropiado en determinadas situaciones
Nota
Microsoft también se reserva el derecho de ocultar o quitar cualquier palabra que se considere inapropiada. El servicio de Voz no devolverá estas palabras, independientemente de si ha habilitado o no el filtrado de palabras soeces.
Las opciones del filtro de palabras soeces son las siguientes:
Masked
: reemplaza letras de las palabras soeces por caracteres de asterisco (*). Este ocultamiento es la opción predeterminada.Raw
: incluye las palabras soeces textualmente.Removed
: quita las palabras soeces.Por ejemplo, para quitar palabras soeces del resultado del reconocimiento de voz, establezca el filtro de palabras soeces en Removed
, tal y como se muestra aquí:
speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -
El filtro de palabras soeces se aplica al resultado Text
y a las propiedades MaskedNormalizedForm
. El filtro de palabras soeces no se aplica al resultado LexicalForm
ni a las propiedades NormalizedForm
. El filtro tampoco se aplica a los resultados de nivel de palabra.
Esdeveniment
Crear aplicacions i agents d'IA
17 de març, 21 - 21 de març, 10
Uneix-te a la sèrie de trobades per crear solucions d'IA escalables basades en casos d'ús del món real amb altres desenvolupadors i experts.
Registreu-vos-hi araFormació
Mòdul
Adición de los servicios de Azure AI al proyecto de realidad mixta - Training
En este curso, se explora el uso de los servicios de voz de Azure mediante su integración en una aplicación hololens2. También puede implementar el proyecto en HoloLens.
Documentació
Mejora de la precisión del reconocimiento con listas de frases - Azure AI services
Las listas de frases se pueden usar para personalizar los resultados del reconocimiento de voz en función del contexto.
Introducción a Habla personalizada: Servicio de voz - Azure AI services
Habla personalizada es un conjunto de herramientas en línea que permite evaluar y mejorar la precisión de la conversión de voz en texto en las aplicaciones, herramientas y productos.
La característica de conversión de voz en texto del servicio de voz, también conocida como reconocimiento de voz, permite la transcripción en tiempo real y por lotes de secuencias de audio en texto. Con la entrada de texto de referencia adicional, también se habilita la valoración de pronunciación en tiempo real y se proporciona a los oradores comentarios sobre la precisión y fluidez del audio hablado.