Nota:
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Use la API REST de conversión de voz en texto para una transcripción rápida, transcripción por lotes y voz personalizada. En este artículo se describen los cambios de la versión 2024-11-15 a la versión 2025-10-15.
Importante
La versión de la API de REST de conversión de voz en texto es 2025-10-15 la versión más reciente que está disponible con carácter general.
-
La versión de la API de REST de conversión de voz en texto
2024-05-15-previewse retirará en una fecha que se anunciará. - La API REST de conversión de voz a texto
v3.0,v3.1,v3.2,3.2-preview.1y3.2-preview.2se retirará el 31 de marzo de 2026.
Para obtener más información acerca de la actualización, consulte las guías de migración de la Conversión de voz en texto de la API de REST de v3.0 a v3.1, v3.1 a v3.2 y v3.2 a 2024-11-15.
Para resumir los cambios de esta versión:
- La API Transcribe tiene nuevas funciones: modo mejorado y lista de frases.
- La API de Proyectos vuelve (ausente en la versión del 2024-11-15) y presenta algunos cambios.
Cambios de la API de transcripción
Estructura de solicitudes
-
Nuevo punto de conexión:
POST <your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15 -
Encabezados y datos de formulario:
Content-Type: multipart/form-dataOcp-Apim-Subscription-Key: $KEY- Campos de formulario:
definition,audio
Example:
curl --request POST \
--url '<your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: $KEY' \
--form 'definition=$DEFINITION' \
--form 'audio=@C:\workspace\audios\test.wav'
Actualizaciones de objetos de definición
-
Quitado:
-
"models"diccionario (ya no se incluye en la definición de solicitud)
-
-
Añadido:
-
"phraseList": ahora admitebiasingWeightel ajuste del sesgo de reconocimiento. -
"enhancedMode"el objeto incluye:-
enabled(booleano) -
task(por ejemplo"translate", ) -
targetLanguage(por ejemplo"ko", ) -
prompt(matriz de instrucciones o aumentos léxicos)
-
-
Example:
{
"locales": ["en-US"],
"profanityFilterMode": "Masked",
"diarization": {
"enabled": true,
"maxSpeakers": 6
},
"channels": [0],
"enhancedMode": {
"enabled": true,
"task": "translate",
"targetLanguage": "ko",
"prompt": [
"Provide lexical output",
"Boost the terms: CONTOSO, AAZZ; Replace ‘50cents’ to ’50-Cents’"
]
},
"phraseList": {
"phrases": ["Kenichi Kumatani", "John McDonough", "Bhiksha Raj"],
"biasingWeight": 1.6
}
}
Estructura de resultados
-
Salida basada en canal:
- Los resultados se organizan por canal
-
Segmentación de frases:
- Cada frase incluye canal, hora de inicio y finalización, orador, texto y confianza a nivel de palabra
Cambios en la API de proyectos
Características nuevas
-
Nombre del proyecto Foundry:
- Nueva propiedad:
foundryProjectNameen Create, Get, Update, List API
- Nueva propiedad:
-
Creación del proyecto:
- Los proyectos se crean mediante convenciones de Azure Resource Manager (ARM)
-
localeahora es necesario para proyectos de voz personalizados
Example:
POST {endpoint}/speechtotext/projects?api-version=2025-10-15
Headers:
Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>
Content-Type: application/json
Body:
{
"locale": "en-US",
"displayName": "My speech project",
"foundryProjectName": "MyFoundrySpeechProject"
}
Enumeración y filtrado de proyectos
-
Filtre por nombre de proyecto de Foundry:
GET {endpoint}/speechtotext/projects?filter=foundryProjectName eq 'MyFoundrySpeechProject'&api-version=2025-10-15