Transcriptions - Transcribe
Transcreve o fluxo de áudio fornecido.
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Parâmetros do URI
Name | Em | Necessário | Tipo | Description |
---|---|---|---|---|
audio
|
formData | True |
file binary |
O áudio como um fluxo de bytes. |
definition
|
formData | True |
string |
Metadados para um pedido de transcrição rápida. Este campo contém um objeto serializado por JSON do tipo |
endpoint
|
path | True |
string |
Pontos de extremidade de Serviços Cognitivos suportados (protocolo e nome do host, por exemplo: https://westus.api.cognitive.microsoft.com). |
api-version
|
query | True |
string |
A versão da api solicitada. |
Respostas
Name | Tipo | Description |
---|---|---|
200 OK |
OK |
Segurança
Ocp-Apim-Subscription-Key
Forneça a chave da sua conta de serviços cognitivos aqui.
Tipo:
apiKey
Em:
header
Authorization
Forneça um token de acesso do JWT retornado pelo STS desta região. Certifique-se de adicionar o escopo de gerenciamento ao token adicionando a seguinte cadeia de caracteres de consulta à URL STS: ?scope=speechservicesmanagement
Tipo:
apiKey
Em:
header
Exemplos
Transcribe an audio file
Pedido de amostra
POST {endpoint}/speechtotext/transcriptions:transcribe?api-version=2024-05-15-preview
Resposta da amostra
{
"duration": 2000,
"combinedPhrases": [
{
"text": "Weather"
}
],
"phrases": [
{
"offset": 40,
"duration": 240,
"text": "Weather",
"words": [
{
"text": "Weather",
"offset": 40,
"duration": 240
}
],
"locale": "en-US",
"confidence": 0.7881154
}
]
}
Definições
Name | Description |
---|---|
Combined |
|
Phrase |
Uma frase transcrita. |
Transcribe |
O resultado da operação de transcrição. |
Word |
Palavra com carimbo de data/hora no formulário de exibição. |
CombinedPhrases
Name | Tipo | Description |
---|---|---|
channel |
integer |
O índice de canal baseado em 0. Presente apenas se a separação de canais estiver ativada. |
text |
string |
O texto transcrito na íntegra para o canal. |
Phrase
Uma frase transcrita.
Name | Tipo | Description |
---|---|---|
channel |
integer |
O índice de canal baseado em 0. Presente apenas se a separação de canais estiver ativada. |
confidence |
number |
O valor de confiança para a frase. |
duration |
integer |
A duração da frase em milissegundos. |
locale |
string |
A localidade da frase. |
offset |
integer |
O deslocamento inicial da frase em milissegundos. |
speaker |
integer |
O número do orador. Presente apenas se a diarização do alto-falante estiver ativada. |
text |
string |
O texto transcrito da frase. |
words |
Word[] |
As palavras que compõem a frase. Presente somente se os carimbos de data/hora no nível da palavra estiverem habilitados. |
TranscribeResult
O resultado da operação de transcrição.
Name | Tipo | Description |
---|---|---|
combinedPhrases |
Os resultados da transcrição combinada para cada canal. |
|
duration |
integer |
A duração do áudio em milissegundos. |
phrases |
Phrase[] |
Os resultados da transcrição segmentados em frases. |
Word
Palavra com carimbo de data/hora no formulário de exibição.
Name | Tipo | Description |
---|---|---|
duration |
integer |
A duração da palavra em milissegundos. |
offset |
integer |
O deslocamento inicial da palavra em milissegundos. |
text |
string |
A palavra reconhecida, incluindo pontuação. |