Transcriptions - Transcribe
Transcribe la secuencia de audio proporcionada.
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Parámetros de identificador URI
Nombre | En | Requerido | Tipo | Description |
---|---|---|---|---|
audio
|
formData | True |
file binary |
Audio como una secuencia de bytes. |
definition
|
formData | True |
string |
Metadatos para una solicitud de transcripción rápida. Este campo contiene un objeto serializado por JSON de tipo |
endpoint
|
path | True |
string |
Puntos de conexión de Cognitive Services admitidos (protocolo y nombre de host, por ejemplo: https://westus.api.cognitive.microsoft.com). |
api-version
|
query | True |
string |
Versión de api solicitada. |
Respuestas
Nombre | Tipo | Description |
---|---|---|
200 OK |
De acuerdo |
Seguridad
Ocp-Apim-Subscription-Key
Proporcione aquí la clave de la cuenta de Cognitive Services.
Tipo:
apiKey
En:
header
Authorization
Proporcione un token de acceso del JWT devuelto por el STS de esta región. Asegúrese de agregar el ámbito de administración al token agregando la siguiente cadena de consulta a la dirección URL de STS: ?scope=speechservicesmanagement
Tipo:
apiKey
En:
header
Ejemplos
Transcribe an audio file
Solicitud de ejemplo
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Respuesta de muestra
{
"duration": 2000,
"combinedPhrases": [
{
"text": "Weather"
}
],
"phrases": [
{
"offset": 40,
"duration": 240,
"text": "Weather",
"words": [
{
"text": "Weather",
"offset": 40,
"duration": 240
}
],
"locale": "en-US",
"confidence": 0.7881154
}
]
}
Definiciones
Nombre | Description |
---|---|
Combined |
|
Phrase |
Frase transcrita. |
Transcribe |
Resultado de la operación de transcripción. |
Word |
Palabra con marca de tiempo en el formulario de presentación. |
CombinedPhrases
Nombre | Tipo | Description |
---|---|---|
channel |
integer |
Índice de canal basado en 0. Solo está presente si la separación de canales está habilitada. |
text |
string |
Texto transcrito completo para el canal. |
Phrase
Frase transcrita.
Nombre | Tipo | Description |
---|---|---|
channel |
integer |
Índice de canal basado en 0. Solo está presente si la separación de canales está habilitada. |
confidence |
number |
Valor de confianza de la frase. |
duration |
integer |
Duración de la frase en milisegundos. |
locale |
string |
Configuración regional de la frase. |
offset |
integer |
Desplazamiento inicial de la frase en milisegundos. |
speaker |
integer |
Número del hablante. Solo está presente si la diarización del hablante está habilitada. |
text |
string |
Texto transcrito de la frase. |
words |
Word[] |
Las palabras que componen la frase. Solo está presente si las marcas de tiempo de nivel de palabra están habilitadas. |
TranscribeResult
Resultado de la operación de transcripción.
Nombre | Tipo | Description |
---|---|---|
combinedPhrases |
Resultados de transcripción combinados para cada canal. |
|
duration |
integer |
Duración del audio en milisegundos. |
phrases |
Phrase[] |
Los resultados de la transcripción se segmentan en frases. |
Word
Palabra con marca de tiempo en el formulario de presentación.
Nombre | Tipo | Description |
---|---|---|
duration |
integer |
Duración de la palabra en milisegundos. |
offset |
integer |
Desplazamiento inicial de la palabra en milisegundos. |
text |
string |
Palabra reconocida, incluida la puntuación. |