Compartir a través de


Migración de código de la versión 2024-11-15 a la versión 2025-10-15

Use la API REST de conversión de voz en texto para una transcripción rápida, transcripción por lotes y voz personalizada. En este artículo se describen los cambios de la versión 2024-11-15 a la versión 2025-10-15.

Importante

La versión de la API de REST de conversión de voz en texto es 2025-10-15 la versión más reciente que está disponible con carácter general.

  • La versión de la API de REST de conversión de voz en texto2024-05-15-preview se retirará en una fecha que se anunciará.
  • La API REST de conversión de voz a texto v3.0, v3.1, v3.2, 3.2-preview.1 y 3.2-preview.2 se retirará el 31 de marzo de 2026.

Para obtener más información acerca de la actualización, consulte las guías de migración de la Conversión de voz en texto de la API de REST de v3.0 a v3.1, v3.1 a v3.2 y v3.2 a 2024-11-15.

Para resumir los cambios de esta versión:

  • La API Transcribe tiene nuevas funciones: modo mejorado y lista de frases.
  • La API de Proyectos vuelve (ausente en la versión del 2024-11-15) y presenta algunos cambios.

Cambios de la API de transcripción

Estructura de solicitudes

  • Nuevo punto de conexión:
    POST <your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15
    
  • Encabezados y datos de formulario:
    • Content-Type: multipart/form-data
    • Ocp-Apim-Subscription-Key: $KEY
    • Campos de formulario: definition, audio

Example:

curl --request POST \
  --url '<your_endpoint>/speechtotext/transcriptions:transcribe?api-version=2025-10-15' \
  --header 'Content-Type: multipart/form-data' \
  --header 'Ocp-Apim-Subscription-Key: $KEY' \
  --form 'definition=$DEFINITION' \
  --form 'audio=@C:\workspace\audios\test.wav'

Actualizaciones de objetos de definición

  • Quitado:
    • "models" diccionario (ya no se incluye en la definición de solicitud)
  • Añadido:
    • "phraseList": ahora admite biasingWeight el ajuste del sesgo de reconocimiento.
    • "enhancedMode" el objeto incluye:
      • enabled (booleano)
      • task (por ejemplo "translate", )
      • targetLanguage (por ejemplo "ko", )
      • prompt (matriz de instrucciones o aumentos léxicos)

Example:

{
  "locales": ["en-US"],
  "profanityFilterMode": "Masked",
  "diarization": {
    "enabled": true,
    "maxSpeakers": 6
  },
  "channels": [0],
  "enhancedMode": {
    "enabled": true,
    "task": "translate",
    "targetLanguage": "ko",
    "prompt": [
      "Provide lexical output",
      "Boost the terms: CONTOSO, AAZZ; Replace ‘50cents’ to ’50-Cents’"
    ]
  },
  "phraseList": {
    "phrases": ["Kenichi Kumatani", "John McDonough", "Bhiksha Raj"],
    "biasingWeight": 1.6
  }
}

Estructura de resultados

  • Salida basada en canal:
    • Los resultados se organizan por canal
  • Segmentación de frases:
    • Cada frase incluye canal, hora de inicio y finalización, orador, texto y confianza a nivel de palabra

Cambios en la API de proyectos

Características nuevas

  • Nombre del proyecto Foundry:
    • Nueva propiedad: foundryProjectName en Create, Get, Update, List API
  • Creación del proyecto:
    • Los proyectos se crean mediante convenciones de Azure Resource Manager (ARM)
    • locale ahora es necesario para proyectos de voz personalizados

Example:

POST {endpoint}/speechtotext/projects?api-version=2025-10-15
Headers:
  Ocp-Apim-Subscription-Key: <YOUR_SUBSCRIPTION_KEY>
  Content-Type: application/json
Body:
{
  "locale": "en-US",
  "displayName": "My speech project",
  "foundryProjectName": "MyFoundrySpeechProject"
}

Enumeración y filtrado de proyectos

  • Filtre por nombre de proyecto de Foundry:
    GET {endpoint}/speechtotext/projects?filter=foundryProjectName eq 'MyFoundrySpeechProject'&api-version=2025-10-15
    

Pasos siguientes