Compartir a través de


Transcriptions - Transcribe

Transcribe la secuencia de audio proporcionada.

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Parámetros de identificador URI

Nombre En Requerido Tipo Description
audio
formData True

file

binary

Audio como una secuencia de bytes.

definition
formData True

string

Metadatos para una solicitud de transcripción rápida. Este campo contiene un objeto serializado por JSON de tipo TranscribeDefinition.

endpoint
path True

string

Puntos de conexión de Cognitive Services admitidos (protocolo y nombre de host, por ejemplo: https://westus.api.cognitive.microsoft.com).

api-version
query True

string

Versión de api solicitada.

Respuestas

Nombre Tipo Description
200 OK

TranscribeResult

De acuerdo

Seguridad

Ocp-Apim-Subscription-Key

Proporcione aquí la clave de la cuenta de Cognitive Services.

Tipo: apiKey
En: header

Authorization

Proporcione un token de acceso del JWT devuelto por el STS de esta región. Asegúrese de agregar el ámbito de administración al token agregando la siguiente cadena de consulta a la dirección URL de STS: ?scope=speechservicesmanagement

Tipo: apiKey
En: header

Ejemplos

Transcribe an audio file

Solicitud de ejemplo

POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview

Respuesta de muestra

{
  "duration": 2000,
  "combinedPhrases": [
    {
      "text": "Weather"
    }
  ],
  "phrases": [
    {
      "offset": 40,
      "duration": 240,
      "text": "Weather",
      "words": [
        {
          "text": "Weather",
          "offset": 40,
          "duration": 240
        }
      ],
      "locale": "en-US",
      "confidence": 0.7881154
    }
  ]
}

Definiciones

Nombre Description
CombinedPhrases
Phrase

Frase transcrita.

TranscribeResult

Resultado de la operación de transcripción.

Word

Palabra con marca de tiempo en el formulario de presentación.

CombinedPhrases

Nombre Tipo Description
channel

integer

Índice de canal basado en 0. Solo está presente si la separación de canales está habilitada.

text

string

Texto transcrito completo para el canal.

Phrase

Frase transcrita.

Nombre Tipo Description
channel

integer

Índice de canal basado en 0. Solo está presente si la separación de canales está habilitada.

confidence

number

Valor de confianza de la frase.

duration

integer

Duración de la frase en milisegundos.

locale

string

Configuración regional de la frase.

offset

integer

Desplazamiento inicial de la frase en milisegundos.

speaker

integer

Número del hablante. Solo está presente si la diarización del hablante está habilitada.

text

string

Texto transcrito de la frase.

words

Word[]

Las palabras que componen la frase. Solo está presente si las marcas de tiempo de nivel de palabra están habilitadas.

TranscribeResult

Resultado de la operación de transcripción.

Nombre Tipo Description
combinedPhrases

CombinedPhrases[]

Resultados de transcripción combinados para cada canal.

duration

integer

Duración del audio en milisegundos.

phrases

Phrase[]

Los resultados de la transcripción se segmentan en frases.

Word

Palabra con marca de tiempo en el formulario de presentación.

Nombre Tipo Description
duration

integer

Duración de la palabra en milisegundos.

offset

integer

Desplazamiento inicial de la palabra en milisegundos.

text

string

Palabra reconocida, incluida la puntuación.