API быстрого транскрибирования используется для синхронного расшифровывания звуковых файлов быстрее, чем в реальном времени. Используйте быструю транскрипцию в случаях, когда вам нужна транскрипция аудиозаписи как можно быстрее с предсказуемой задержкой, таких как:
В отличие от API пакетной транскрипции, API быстрой транскрипции производит транскрипции только в отображаемой (а не в лексической) форме. Форма отображения является более удобочитаемой версией транскрипции, которая включает знаки препинания и заглавные буквы.
Отправьте multipart/form-data POST-запрос к конечной точке transcriptions
с аудиофайлом и свойствами тела запроса.
Следующий пример показывает, как транскрибировать аудиофайл с указанием региона. Если вы знаете локаль звукового файла, можно указать её, чтобы повысить точность транскрибирования и минимизировать задержку.
- Замените
YourSpeechResoureKey
на ключ вашего ресурсного блока речи.
- Замените
YourServiceRegion
регионом ресурса 'Речь'.
- Замените
YourAudioFile
на путь к вашему аудиофайлу.
Это важно
Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
на --header "Authorization: Bearer YourAccessToken"
. Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US"]}"'
Составьте определение формы в соответствии с следующими инструкциями:
- Установите необязательное (но рекомендуемое) свойство
locales
, которое должно соответствовать ожидаемому языковому региону аудиоданных для транскрибирования. В этом примере для языкового стандарта задано значение en-US
. Для получения дополнительной информации о поддерживаемых языках см. поддерживаемые языки преобразования речи в текст.
Для получения дополнительной информации о locales
и других свойствах API быстрой транскрипции, см. раздел параметры конфигурации запроса позднее в этом руководстве.
Ответ включает durationMilliseconds
, offsetMilliseconds
, и многое другое. Свойство combinedPhrases
содержит полные транскрипции для всех участников.
{
"durationMilliseconds": 182439,
"combinedPhrases": [
{
"text": "Good afternoon. This is Sam. Thank you for calling Contoso. How can I help? Hi there. My name is Mary. I'm currently living in Los Angeles, but I'm planning to move to Las Vegas. I would like to apply for a loan. Okay. I see you're currently living in California. Let me make sure I understand you correctly. Uh You'd like to apply for a loan even though you'll be moving soon. Is that right? Yes, exactly. So I'm planning to relocate soon, but I would like to apply for the loan first so that I can purchase a new home once I move there. And are you planning to sell your current home? Yes, I will be listing it on the market soon and hopefully it'll sell quickly. That's why I'm applying for a loan now, so that I can purchase a new house in Nevada and close on it quickly as well once my current home sells. I see. Would you mind holding for a moment while I take your information down? Yeah, no problem. Thank you for your help. Mm-hmm. Just one moment. All right. Thank you for your patience, ma'am. May I have your first and last name, please? Yes, my name is Mary Smith. Thank you, Ms. Smith. May I have your current address, please? Yes. So my address is 123 Main Street in Los Angeles, California, and the zip code is 90923. Sorry, that was a 90 what? 90923. 90923 on Main Street. Got it. Thank you. May I have your phone number as well, please? Uh Yes, my phone number is 504-529-2351 and then yeah. 2351. Got it. And do you have an e-mail address we I can associate with this application? uh Yes, so my e-mail address is mary.a.sm78@gmail.com. Mary.a, was that a S-N as in November or M as in Mike? M as in Mike. Mike78, got it. Thank you. Ms. Smith, do you currently have any other loans? Uh Yes, so I currently have two other loans through Contoso. So my first one is my car loan and then my other is my student loan. They total about 1400 per month combined and my interest rate is 8%. I see. And you're currently paying those loans off monthly, is that right? Yes, of course I do. OK, thank you. Here's what I suggest we do. Let me place you on a brief hold again so that I can talk with one of our loan officers and get this started for you immediately. In the meantime, it would be great if you could take a few minutes and complete the remainder of the secure application online at www.contosoloans.com. Yeah, that sounds good. I can go ahead and get started. Thank you for your help. Thank you."
}
],
"phrases": [
{
"offsetMilliseconds": 960,
"durationMilliseconds": 640,
"text": "Good afternoon.",
"words": [
{
"text": "Good",
"offsetMilliseconds": 960,
"durationMilliseconds": 240
},
{
"text": "afternoon.",
"offsetMilliseconds": 1200,
"durationMilliseconds": 400
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 1600,
"durationMilliseconds": 640,
"text": "This is Sam.",
"words": [
{
"text": "This",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "is",
"offsetMilliseconds": 1840,
"durationMilliseconds": 120
},
{
"text": "Sam.",
"offsetMilliseconds": 1960,
"durationMilliseconds": 280
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 2240,
"durationMilliseconds": 1040,
"text": "Thank you for calling Contoso.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 2240,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 2440,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 2520,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 2640,
"durationMilliseconds": 200
},
{
"text": "Contoso.",
"offsetMilliseconds": 2840,
"durationMilliseconds": 440
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 3280,
"durationMilliseconds": 640,
"text": "How can I help?",
"words": [
{
"text": "How",
"offsetMilliseconds": 3280,
"durationMilliseconds": 120
},
{
"text": "can",
"offsetMilliseconds": 3440,
"durationMilliseconds": 120
},
{
"text": "I",
"offsetMilliseconds": 3560,
"durationMilliseconds": 40
},
{
"text": "help?",
"offsetMilliseconds": 3600,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 5040,
"durationMilliseconds": 400,
"text": "Hi there.",
"words": [
{
"text": "Hi",
"offsetMilliseconds": 5040,
"durationMilliseconds": 240
},
{
"text": "there.",
"offsetMilliseconds": 5280,
"durationMilliseconds": 160
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 5440,
"durationMilliseconds": 800,
"text": "My name is Mary.",
"words": [
{
"text": "My",
"offsetMilliseconds": 5440,
"durationMilliseconds": 80
},
{
"text": "name",
"offsetMilliseconds": 5520,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5640,
"durationMilliseconds": 80
},
{
"text": "Mary.",
"offsetMilliseconds": 5720,
"durationMilliseconds": 520
}
],
"locale": "en-US",
"confidence": 0.93554276
},
// More transcription results...
// Redacted for brevity
{
"offsetMilliseconds": 180320,
"durationMilliseconds": 680,
"text": "Thank you for your help.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 180320,
"durationMilliseconds": 160
},
{
"text": "you",
"offsetMilliseconds": 180480,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 180560,
"durationMilliseconds": 120
},
{
"text": "your",
"offsetMilliseconds": 180680,
"durationMilliseconds": 120
},
{
"text": "help.",
"offsetMilliseconds": 180800,
"durationMilliseconds": 200
}
],
"locale": "en-US",
"confidence": 0.92022026
},
{
"offsetMilliseconds": 181960,
"durationMilliseconds": 280,
"text": "Thank you.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 181960,
"durationMilliseconds": 200
},
{
"text": "you.",
"offsetMilliseconds": 182160,
"durationMilliseconds": 80
}
],
"locale": "en-US",
"confidence": 0.92022026
}
]
}
Отправьте multipart/form-data POST-запрос к конечной точке transcriptions
с аудиофайлом и свойствами тела запроса.
В следующем примере показано, как транскрибировать звуковой файл с помощью идентификации языка. Если вы не уверены в локали, вы можете указать несколько локалей. Если вы не укажете локаль или если указанные вами локали отсутствуют в аудиофайле, то служба распознавания речи попытается определить локаль.
- Замените
YourSpeechResoureKey
на ключ вашего ресурсного блока речи.
- Замените
YourServiceRegion
регионом ресурса 'Речь'.
- Замените
YourAudioFile
на путь к вашему аудиофайлу.
Это важно
Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
на --header "Authorization: Bearer YourAccessToken"
. Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US","ja-JP"]}"'
Составьте определение формы в соответствии с следующими инструкциями:
- Установите необязательное (но рекомендуемое) свойство
locales
, которое должно соответствовать ожидаемому языковому региону аудиоданных для транскрибирования. В этом примере локали установлены на en-US
и ja-JP
. Поддерживаемые языковые локали, которые можно указать, относятся ко всем поддерживаемым языкам.
Для получения дополнительной информации о locales
и других свойствах API быстрой транскрипции, см. раздел параметры конфигурации запроса позднее в этом руководстве.
Ответ включает durationMilliseconds
, offsetMilliseconds
, и многое другое. Свойство combinedPhrases
содержит полные транскрипции для всех участников.
{
"durationMilliseconds": 185079,
"combinedPhrases": [
{
"text": "Hello, thank you for calling Contoso. Who am I speaking with today? Hi, my name is Mary Rondo. I'm trying to enroll myself with Contoso. Hi, Mary. Are you calling because you need health insurance? Yes. Yeah, I'm calling to sign up for insurance. Great. Uh If you can answer a few questions, we can get you signed up in a Jiffy. Okay. So what's your full name? uh So Mary Beth Rondo, last name is R like Romeo, O like Ocean, N like Nancy D, D like Dog, and O like Ocean again. Rondo. Got it. And what's the best callback number in case we get disconnected? I only have a cell phone, so I can give you that. Yep, that'll be fine. Sure. So it's 234-554 and then 9312. Got it. So to confirm, it's 234-554-9312. Yep, that's right. Excellent. Let's get some additional information for your application. Do you have a job? Uh Yes, I am self-employed. Okay, so then you have a social security number as well? Uh Yes, I do. Okay, and what is your social security number, please? Uh Sure, so it's 412-253-4931. 6789. Sorry, was that a 25 or a 225? You cut out for a bit. It's double two, so 412, then another two, then five. Thank you so much. And could I have your e-mail address, please? Yeah, it's maryrondo@gmail.com. So my first and last name at gmail.com. No periods, no dashes. Great. Uh That is the last question. So let me take your information and I'll be able to get you signed up right away. Thank you for calling Contoso and I'll be able to get you signed up immediately. One of our agents will call you back in about 24 hours or so to confirm your application. That sounds good. Thank you. Absolutely. If you need anything else, please give us a call at 1-800-555-5564, extension 123. Thank you very much for calling Contoso. Actually, so I have one more question. Yes, of course. I'm curious, will I be getting a physical card as proof of coverage? So the default is a digital membership card, but we can send you a physical card if you prefer. Uh Yes. Could you please mail it to me when it's ready? I'd like to have it shipped to, are you ready for my address? Uh Yeah. uh So it's 2660 Unit A on Maple Avenue, Southeast Lansing, and then zip code is 48823. Absolutely. I've made a note on your file. Awesome. Thanks so much. You're very welcome. Thank you for calling Contoso and have a great day."
}
],
"phrases": [
{
"offsetMilliseconds": 720,
"durationMilliseconds": 1600,
"text": "Hello, thank you for calling Contoso.",
"words": [
{
"text": "Hello,",
"offsetMilliseconds": 720,
"durationMilliseconds": 480
},
{
"text": "thank",
"offsetMilliseconds": 1200,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 1400,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 1480,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "Contoso.",
"offsetMilliseconds": 1840,
"durationMilliseconds": 480
}
],
"locale": "en-US",
"confidence": 0.93265927
},
{
"offsetMilliseconds": 2320,
"durationMilliseconds": 1120,
"text": "Who am I speaking with today?",
"words": [
{
"text": "Who",
"offsetMilliseconds": 2320,
"durationMilliseconds": 160
},
{
"text": "am",
"offsetMilliseconds": 2480,
"durationMilliseconds": 80
},
{
"text": "I",
"offsetMilliseconds": 2560,
"durationMilliseconds": 80
},
{
"text": "speaking",
"offsetMilliseconds": 2640,
"durationMilliseconds": 320
},
{
"text": "with",
"offsetMilliseconds": 2960,
"durationMilliseconds": 160
},
{
"text": "today?",
"offsetMilliseconds": 3120,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.93265927
},
{
"offsetMilliseconds": 4480,
"durationMilliseconds": 1600,
"text": "Hi, my name is Mary Rondo.",
"words": [
{
"text": "Hi,",
"offsetMilliseconds": 4480,
"durationMilliseconds": 400
},
{
"text": "my",
"offsetMilliseconds": 4880,
"durationMilliseconds": 120
},
{
"text": "name",
"offsetMilliseconds": 5000,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5120,
"durationMilliseconds": 160
},
{
"text": "Mary",
"offsetMilliseconds": 5280,
"durationMilliseconds": 240
},
{
"text": "Rondo.",
"offsetMilliseconds": 5520,
"durationMilliseconds": 560
}
],
"locale": "en-US",
"confidence": 0.93265927
},
{
"offsetMilliseconds": 6120,
"durationMilliseconds": 1800,
"text": "I'm trying to enroll myself with Contoso.",
"words": [
{
"text": "I'm",
"offsetMilliseconds": 6120,
"durationMilliseconds": 120
},
{
"text": "trying",
"offsetMilliseconds": 6240,
"durationMilliseconds": 200
},
{
"text": "to",
"offsetMilliseconds": 6440,
"durationMilliseconds": 80
},
{
"text": "enroll",
"offsetMilliseconds": 6520,
"durationMilliseconds": 200
},
{
"text": "myself",
"offsetMilliseconds": 6720,
"durationMilliseconds": 360
},
{
"text": "with",
"offsetMilliseconds": 7080,
"durationMilliseconds": 120
},
{
"text": "Contoso.",
"offsetMilliseconds": 7200,
"durationMilliseconds": 720
}
],
"locale": "en-US",
"confidence": 0.93265927
},
// More transcription results...
// Redacted for brevity
{
"offsetMilliseconds": 181520,
"durationMilliseconds": 720,
"text": "You're very welcome.",
"words": [
{
"text": "You're",
"offsetMilliseconds": 181520,
"durationMilliseconds": 160
},
{
"text": "very",
"offsetMilliseconds": 181680,
"durationMilliseconds": 200
},
{
"text": "welcome.",
"offsetMilliseconds": 181880,
"durationMilliseconds": 360
}
],
"locale": "en-US",
"confidence": 0.90571773
},
{
"offsetMilliseconds": 182320,
"durationMilliseconds": 1840,
"text": "Thank you for calling Contoso and have a great day.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 182320,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 182520,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 182600,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 182720,
"durationMilliseconds": 280
},
{
"text": "Contoso",
"offsetMilliseconds": 183000,
"durationMilliseconds": 520
},
{
"text": "and",
"offsetMilliseconds": 183520,
"durationMilliseconds": 160
},
{
"text": "have",
"offsetMilliseconds": 183680,
"durationMilliseconds": 120
},
{
"text": "a",
"offsetMilliseconds": 183800,
"durationMilliseconds": 40
},
{
"text": "great",
"offsetMilliseconds": 183840,
"durationMilliseconds": 200
},
{
"text": "day.",
"offsetMilliseconds": 184040,
"durationMilliseconds": 120
}
],
"locale": "en-US",
"confidence": 0.90571773
}
]
}
Отправьте multipart/form-data POST-запрос к конечной точке transcriptions
с аудиофайлом и свойствами тела запроса.
В следующем примере показано, как транскрибировать звуковой файл с помощью последней многоязычной модели транскрибирования речи. Если звук содержит многоязычное содержимое, которое вы хотите непрерывно и точно расшифровывать, можно использовать последнюю модель транскрибирования речи с несколькими языками, не указывая коды языкового стандарта.
- Замените
YourSpeechResoureKey
на ключ вашего ресурсного блока речи.
- Замените
YourServiceRegion
регионом ресурса 'Речь'.
- Замените
YourAudioFile
на путь к вашему аудиофайлу.
Это важно
Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
на --header "Authorization: Bearer YourAccessToken"
. Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":[]}"'
Составьте определение формы в соответствии с следующими инструкциями:
Можно оставить locales
свойство пустым (как показано в предыдущем примере) или опустить его.
Поддерживаемые локали ввода аудио для текущей многоязычной модели: de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, ko-KR и zh-CN.
Результат транскрибирования определяется на уровне языка и будет следовать "основному коду региона для этого языка" (например, он всегда будет выводить код региона "en-US", даже если звук имеет акцент британского или индийского английского).
Для получения дополнительной информации о locales
и других свойствах API быстрой транскрипции, см. раздел параметры конфигурации запроса позднее в этом руководстве.
Ответ включает durationMilliseconds
, offsetMilliseconds
, и многое другое. Свойство combinedPhrases
содержит полные транскрипции для всех участников.
{
"durationMilliseconds": 57187,
"combinedPhrases": [
{
"text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products 现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。 Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne très bien dans la plupart des scénarios de reconnaissance vocale. A custom model can be used to augment the base model to improve recognition of domain specific vocabulary specified to the application by providing text data to train the model. It can also be used to improve recognition based for the specific audio conditions of the application by providing audio data with reference transcriptions."
}
],
"phrases": [
{
"offsetMilliseconds": 80,
"durationMilliseconds": 6960,
"text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products.",
"words": [
{
"text": "with",
"offsetMilliseconds": 80,
"durationMilliseconds": 160
},
{
"text": "custom",
"offsetMilliseconds": 240,
"durationMilliseconds": 480
},
{
"text": "speech",
"offsetMilliseconds": 720,
"durationMilliseconds": 360
},
{
"text": ",",
"offsetMilliseconds": 1080,
"durationMilliseconds": 10
},
{
"text": "you",
"offsetMilliseconds": 1200,
"durationMilliseconds": 240
},
{
"text": "can",
"offsetMilliseconds": 1440,
"durationMilliseconds": 160
},
{
"text": "evaluate",
"offsetMilliseconds": 1600,
"durationMilliseconds": 640
},
{
"text": "and",
"offsetMilliseconds": 2240,
"durationMilliseconds": 200
},
{
"text": "improve",
"offsetMilliseconds": 2440,
"durationMilliseconds": 280
},
{
"text": "the",
"offsetMilliseconds": 2720,
"durationMilliseconds": 160
},
{
"text": "microsoft",
"offsetMilliseconds": 2880,
"durationMilliseconds": 640
},
{
"text": "speech",
"offsetMilliseconds": 3520,
"durationMilliseconds": 320
},
{
"text": "to",
"offsetMilliseconds": 3840,
"durationMilliseconds": 200
},
{
"text": "text",
"offsetMilliseconds": 4040,
"durationMilliseconds": 360
},
{
"text": "accuracy",
"offsetMilliseconds": 4400,
"durationMilliseconds": 560
},
{
"text": "for",
"offsetMilliseconds": 4960,
"durationMilliseconds": 160
},
{
"text": "your",
"offsetMilliseconds": 5120,
"durationMilliseconds": 200
},
{
"text": "applications",
"offsetMilliseconds": 5320,
"durationMilliseconds": 760
},
{
"text": "and",
"offsetMilliseconds": 6080,
"durationMilliseconds": 200
},
{
"text": "products",
"offsetMilliseconds": 6280,
"durationMilliseconds": 680
},
],
"locale": "en-us",
"confidence": 0.9539559
},
{
"offsetMilliseconds": 8000,
"durationMilliseconds": 8600,
"text": "现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。",
"words": [
{
"text": "现",
"offsetMilliseconds": 8000,
"durationMilliseconds": 40
},
{
"text": "成",
"offsetMilliseconds": 8040,
"durationMilliseconds": 40
},
{
"text": "的",
"offsetMilliseconds": 8160,
"durationMilliseconds": 40
},
{
"text": "语",
"offsetMilliseconds": 8200,
"durationMilliseconds": 40
},
{
"text": "音",
"offsetMilliseconds": 8240,
"durationMilliseconds": 40
},
{
"text": "转",
"offsetMilliseconds": 8280,
"durationMilliseconds": 40
},
{
"text": "文",
"offsetMilliseconds": 8320,
"durationMilliseconds": 40
},
{
"text": "本,",
"offsetMilliseconds": 8360,
"durationMilliseconds": 40
},
{
"text": "利",
"offsetMilliseconds": 8400,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 8440,
"durationMilliseconds": 40
},
{
"text": "通",
"offsetMilliseconds": 8480,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 8520,
"durationMilliseconds": 40
},
{
"text": "语",
"offsetMilliseconds": 8560,
"durationMilliseconds": 40
},
{
"text": "言",
"offsetMilliseconds": 8600,
"durationMilliseconds": 40
},
{
"text": "模",
"offsetMilliseconds": 8640,
"durationMilliseconds": 40
},
{
"text": "型",
"offsetMilliseconds": 8680,
"durationMilliseconds": 40
},
{
"text": "作",
"offsetMilliseconds": 8800,
"durationMilliseconds": 40
},
{
"text": "为",
"offsetMilliseconds": 8840,
"durationMilliseconds": 40
},
{
"text": "一",
"offsetMilliseconds": 9520,
"durationMilliseconds": 40
},
{
"text": "个",
"offsetMilliseconds": 9560,
"durationMilliseconds": 40
},
{
"text": "基",
"offsetMilliseconds": 9600,
"durationMilliseconds": 40
},
{
"text": "本",
"offsetMilliseconds": 9640,
"durationMilliseconds": 40
},
{
"text": "模",
"offsetMilliseconds": 9680,
"durationMilliseconds": 40
},
{
"text": "型,",
"offsetMilliseconds": 9720,
"durationMilliseconds": 40
},
{
"text": "使",
"offsetMilliseconds": 9760,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 10080,
"durationMilliseconds": 320
},
{
"text": "microsoft",
"offsetMilliseconds": 10400,
"durationMilliseconds": 3600
},
{
"text": "自",
"offsetMilliseconds": 14000,
"durationMilliseconds": 40
},
{
"text": "有",
"offsetMilliseconds": 14040,
"durationMilliseconds": 40
},
{
"text": "数",
"offsetMilliseconds": 14160,
"durationMilliseconds": 40
},
{
"text": "据",
"offsetMilliseconds": 14200,
"durationMilliseconds": 40
},
{
"text": "进",
"offsetMilliseconds": 14320,
"durationMilliseconds": 40
},
{
"text": "行",
"offsetMilliseconds": 14360,
"durationMilliseconds": 40
},
{
"text": "训",
"offsetMilliseconds": 14400,
"durationMilliseconds": 40
},
{
"text": "练,",
"offsetMilliseconds": 14440,
"durationMilliseconds": 40
},
{
"text": "并",
"offsetMilliseconds": 14480,
"durationMilliseconds": 40
},
{
"text": "反",
"offsetMilliseconds": 14520,
"durationMilliseconds": 40
},
{
"text": "映",
"offsetMilliseconds": 14560,
"durationMilliseconds": 40
},
{
"text": "常",
"offsetMilliseconds": 14600,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 14640,
"durationMilliseconds": 40
},
{
"text": "的",
"offsetMilliseconds": 14680,
"durationMilliseconds": 40
},
{
"text": "口",
"offsetMilliseconds": 14720,
"durationMilliseconds": 40
},
{
"text": "语",
"offsetMilliseconds": 14760,
"durationMilliseconds": 40
},
{
"text": "。",
"offsetMilliseconds": 14800,
"durationMilliseconds": 40
},
{
"text": "此",
"offsetMilliseconds": 14840,
"durationMilliseconds": 40
},
{
"text": "基",
"offsetMilliseconds": 14880,
"durationMilliseconds": 40
},
{
"text": "础",
"offsetMilliseconds": 14920,
"durationMilliseconds": 40
},
{
"text": "模",
"offsetMilliseconds": 14960,
"durationMilliseconds": 40
},
{
"text": "型",
"offsetMilliseconds": 15000,
"durationMilliseconds": 40
},
{
"text": "使",
"offsetMilliseconds": 15040,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 15080,
"durationMilliseconds": 40
},
{
"text": "那",
"offsetMilliseconds": 15120,
"durationMilliseconds": 40
},
{
"text": "些",
"offsetMilliseconds": 15160,
"durationMilliseconds": 40
},
{
"text": "代",
"offsetMilliseconds": 15200,
"durationMilliseconds": 40
},
{
"text": "表",
"offsetMilliseconds": 15240,
"durationMilliseconds": 40
},
{
"text": "各",
"offsetMilliseconds": 15280,
"durationMilliseconds": 40
},
{
"text": "常",
"offsetMilliseconds": 15320,
"durationMilliseconds": 40
},
{
"text": "见",
"offsetMilliseconds": 15360,
"durationMilliseconds": 40
},
{
"text": "领",
"offsetMilliseconds": 15400,
"durationMilliseconds": 40
},
{
"text": "域",
"offsetMilliseconds": 15760,
"durationMilliseconds": 40
},
{
"text": "的",
"offsetMilliseconds": 15800,
"durationMilliseconds": 40
},
{
"text": "方",
"offsetMilliseconds": 15920,
"durationMilliseconds": 40
},
{
"text": "言",
"offsetMilliseconds": 15960,
"durationMilliseconds": 40
},
{
"text": "和",
"offsetMilliseconds": 16000,
"durationMilliseconds": 40
},
{
"text": "发",
"offsetMilliseconds": 16040,
"durationMilliseconds": 40
},
{
"text": "音",
"offsetMilliseconds": 16080,
"durationMilliseconds": 40
},
{
"text": "进",
"offsetMilliseconds": 16120,
"durationMilliseconds": 40
},
{
"text": "行",
"offsetMilliseconds": 16160,
"durationMilliseconds": 40
},
{
"text": "了",
"offsetMilliseconds": 16200,
"durationMilliseconds": 40
},
{
"text": "预",
"offsetMilliseconds": 16320,
"durationMilliseconds": 40
},
{
"text": "先",
"offsetMilliseconds": 16360,
"durationMilliseconds": 40
},
{
"text": "训",
"offsetMilliseconds": 16400,
"durationMilliseconds": 40
},
{
"text": "练",
"offsetMilliseconds": 16560,
"durationMilliseconds": 40
},
],
"locale": "zh-cn",
"confidence": 0.9241725
},
{
"offsetMilliseconds": 24320,
"durationMilliseconds": 6640,
"text": "Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut.",
"words": [
{
"text": "Quand",
"offsetMilliseconds": 24320,
"durationMilliseconds": 160
},
{
"text": "vous",
"offsetMilliseconds": 24480,
"durationMilliseconds": 80
},
// More transcription results...
// Redacted for brevity
{
"text": "scénarios",
"offsetMilliseconds": 34200,
"durationMilliseconds": 400
},
{
"text": "de",
"offsetMilliseconds": 34600,
"durationMilliseconds": 120
},
{
"text": "reconnaissance",
"offsetMilliseconds": 34720,
"durationMilliseconds": 640
},
{
"text": "vocale.",
"offsetMilliseconds": 35360,
"durationMilliseconds": 480
}
],
"locale": "fr-fr",
"confidence": 0.9308314
},
{
"offsetMilliseconds": 36720,
"durationMilliseconds": 10320,
"text": "A custom model can be used to augment the base model to improve recognition of domain specific vocabulary spécifique to the application by providing text data to train the model.",
"words": [
{
"text": "A",
"offsetMilliseconds": 36720,
"durationMilliseconds": 80
},
{
"text": "custom",
"offsetMilliseconds": 36880,
"durationMilliseconds": 400
},
{
"text": "model",
"offsetMilliseconds": 37280,
"durationMilliseconds": 480
},
// More transcription results...
// Redacted for brevity
{
"text": "with",
"offsetMilliseconds": 54720,
"durationMilliseconds": 200
},
{
"text": "reference",
"offsetMilliseconds": 54920,
"durationMilliseconds": 360
},
{
"text": "transcriptions.",
"offsetMilliseconds": 55280,
"durationMilliseconds": 1200
}
],
"locale": "en-us",
"confidence": 0.92155737
}
]
}
Отправьте multipart/form-data POST-запрос к конечной точке transcriptions
с аудиофайлом и свойствами тела запроса.
Пример ниже показывает, как транскрибировать аудиофайл с включенной диаризацией. Диаризация различает разных участников разговора. Служба распознавания речи предоставляет информацию о том, какой из ораторов говорил конкретную часть транскрибированной речи.
- Замените
YourSpeechResoureKey
на ключ вашего ресурсного блока речи.
- Замените
YourServiceRegion
регионом ресурса 'Речь'.
- Замените
YourAudioFile
на путь к вашему аудиофайлу.
Это важно
Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
на --header "Authorization: Bearer YourAccessToken"
. Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US"],
"diarization": {"maxSpeakers": 2,"enabled": true}}"'
Составьте определение формы в соответствии с следующими инструкциями:
Установите необязательное (но рекомендуемое) свойство locales
, которое должно соответствовать ожидаемому языковому региону аудиоданных для транскрибирования. В этом примере для языкового стандарта задано значение en-US
. Поддерживаемые языковые параметры: de-DE, en-GB, en-IN, en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, pt-BRи zh-CN.
Установите свойство diarization
, чтобы распознавать и отделять нескольких говорящих на одном аудиоканале. Например, укажите "diarization": {"maxSpeakers": 2, "enabled": true}
. Затем файл транскрипции содержит speaker
записи для каждой транскрибированной фразы.
Дополнительные сведения об locales
и diarization
других свойствах API быстрого транскрибирования см. в разделе параметров конфигурации запроса далее в этом руководстве.
Ответ включает durationMilliseconds
, offsetMilliseconds
, и многое другое. В этом примере включена диаризация, поэтому ответ содержит информацию speaker
для каждой транскрибированной фразы. Свойство combinedPhrases
содержит полные транскрипции для всех участников в одном канале.
{
"durationMilliseconds": 182439,
"combinedPhrases": [
{
"channel": 0,
"text": "Good afternoon. This is Sam. Thank you for calling Contoso. How can I help? Hi there. My name is Mary. I'm currently living in Los Angeles, but I'm planning to move to Las Vegas. I would like to apply for a loan. Okay. I see you're currently living in California. Let me make sure I understand you correctly. Uh You'd like to apply for a loan even though you'll be moving soon. Is that right? Yes, exactly. So I'm planning to relocate soon, but I would like to apply for the loan first so that I can purchase a new home once I move there. And are you planning to sell your current home? Yes, I will be listing it on the market soon and hopefully it'll sell quickly. That's why I'm applying for a loan now, so that I can purchase a new house in Nevada and close on it quickly as well once my current home sells. I see. Would you mind holding for a moment while I take your information down? Yeah, no problem. Thank you for your help. Mm-hmm. Just one moment. All right. Thank you for your patience, ma'am. May I have your first and last name, please? Yes, my name is Mary Smith. Thank you, Ms. Smith. May I have your current address, please? Yes. So my address is 123 Main Street in Los Angeles, California, and the zip code is 90923. Sorry, that was a 90 what? 90923. 90923 on Main Street. Got it. Thank you. May I have your phone number as well, please? Uh. Yes, my phone number is 504-529-2351 and then yeah. 2351. Got it. And do you have an e-mail address we I can associate with this application? Uh Yes, so my e-mail address is mary.a.sm78@gmail.com. Mary.a, was that a S-N as in November or M as in Mike? M as in Mike. Mike78, got it. Thank you. Ms. Smith, do you currently have any other loans? Uh Yes, so I currently have two other loans through Contoso. So my first one is my car loan and then my other is my student loan. They total about 1400 per month combined and my interest rate is 8%. I see. And. You're currently paying those loans off monthly, is that right? Yes, of course I do. OK, thank you. Here's what I suggest we do. Let me place you on a brief hold again so that I can talk with one of our loan officers and get this started for you immediately. In the meantime, it would be great if you could take a few minutes and complete the remainder of the secure application online at www.contosoloans.com. Yeah, that sounds good. I can go ahead and get started. Thank you for your help. Thank you."
}
],
"phrases": [
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 960,
"durationMilliseconds": 640,
"text": "Good afternoon.",
"words": [
{
"text": "Good",
"offsetMilliseconds": 960,
"durationMilliseconds": 240
},
{
"text": "afternoon.",
"offsetMilliseconds": 1200,
"durationMilliseconds": 400
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 1600,
"durationMilliseconds": 640,
"text": "This is Sam.",
"words": [
{
"text": "This",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "is",
"offsetMilliseconds": 1840,
"durationMilliseconds": 120
},
{
"text": "Sam.",
"offsetMilliseconds": 1960,
"durationMilliseconds": 280
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 2240,
"durationMilliseconds": 1040,
"text": "Thank you for calling Contoso.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 2240,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 2440,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 2520,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 2640,
"durationMilliseconds": 200
},
{
"text": "Contoso.",
"offsetMilliseconds": 2840,
"durationMilliseconds": 440
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 3280,
"durationMilliseconds": 640,
"text": "How can I help?",
"words": [
{
"text": "How",
"offsetMilliseconds": 3280,
"durationMilliseconds": 120
},
{
"text": "can",
"offsetMilliseconds": 3440,
"durationMilliseconds": 120
},
{
"text": "I",
"offsetMilliseconds": 3560,
"durationMilliseconds": 40
},
{
"text": "help?",
"offsetMilliseconds": 3600,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 0,
"offsetMilliseconds": 5040,
"durationMilliseconds": 400,
"text": "Hi there.",
"words": [
{
"text": "Hi",
"offsetMilliseconds": 5040,
"durationMilliseconds": 240
},
{
"text": "there.",
"offsetMilliseconds": 5280,
"durationMilliseconds": 160
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 0,
"offsetMilliseconds": 5440,
"durationMilliseconds": 800,
"text": "My name is Mary.",
"words": [
{
"text": "My",
"offsetMilliseconds": 5440,
"durationMilliseconds": 80
},
{
"text": "name",
"offsetMilliseconds": 5520,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5640,
"durationMilliseconds": 80
},
{
"text": "Mary.",
"offsetMilliseconds": 5720,
"durationMilliseconds": 520
}
],
"locale": "en-US",
"confidence": 0.93616915
},
// More transcription results...
// Redacted for brevity
{
"channel": 0,
"speaker": 0,
"offsetMilliseconds": 180320,
"durationMilliseconds": 680,
"text": "Thank you for your help.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 180320,
"durationMilliseconds": 160
},
{
"text": "you",
"offsetMilliseconds": 180480,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 180560,
"durationMilliseconds": 120
},
{
"text": "your",
"offsetMilliseconds": 180680,
"durationMilliseconds": 120
},
{
"text": "help.",
"offsetMilliseconds": 180800,
"durationMilliseconds": 200
}
],
"locale": "en-US",
"confidence": 0.9314801
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 181960,
"durationMilliseconds": 280,
"text": "Thank you.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 181960,
"durationMilliseconds": 200
},
{
"text": "you.",
"offsetMilliseconds": 182160,
"durationMilliseconds": 80
}
],
"locale": "en-US",
"confidence": 0.9314801
}
]
}
Отправьте multipart/form-data POST-запрос к конечной точке transcriptions
с аудиофайлом и свойствами тела запроса.
Пример ниже показывает, как транскрибировать аудиофайл, имеющий один или два канала. Транскрипции для мультимедийных каналов полезны для аудиофайлов с несколькими каналами, например, для аудиофайлов с несколькими говорящими или аудиофайлов с фоновым шумом. По умолчанию API для быстрой транскрипции объединяет все входные каналы в один и затем выполняет транскрипцию. Если это нежелательно, каналы могут быть транскрибированы независимо, без объединения.
- Замените
YourSpeechResoureKey
на ключ вашего ресурсного блока речи.
- Замените
YourServiceRegion
регионом ресурса 'Речь'.
- Замените
YourAudioFile
на путь к вашему аудиофайлу.
Это важно
Для рекомендуемой бесключевой аутентификации с использованием Microsoft Entra ID замените --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
на --header "Authorization: Bearer YourAccessToken"
. Дополнительные сведения о проверке подлинности без ключа см. в руководстве по управлению доступом на основе ролей .
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US"],
"channels": [0,1]}"'
Составьте определение формы в соответствии с следующими инструкциями:
Установите необязательное (но рекомендуемое) свойство locales
, которое должно соответствовать ожидаемому языковому региону аудиоданных для транскрибирования. В этом примере для языкового стандарта задано значение en-US
. Поддерживаемые языковые параметры: de-DE, en-GB, en-IN, en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, pt-BRи zh-CN.
Установите свойство channels
, чтобы указать нулевые индексы каналов, которые должны быть транскрибированы отдельно. Поддерживаются до двух каналов, если не включена диаризация. В этом примере указаны каналы 0 и 1.
Дополнительные сведения об locales
и channels
других свойствах API быстрого транскрибирования см. в разделе параметров конфигурации запроса далее в этом руководстве.
Ответ включает durationMilliseconds
, offsetMilliseconds
, и многое другое. Свойство channel
идентифицирует канал, если аудиофайл содержит несколько каналов. Свойство combinedPhrases
содержит полные транскрипции, разделенные по аудиоканалам. Ищите "channel": 0,"text"
и "channel": 1,"text"
для идентификации полных транскрипций каждого канала.
{
"durationMilliseconds": 185079,
"combinedPhrases": [
{
"channel": 0,
"text": "Hello. Thank you for calling Contoso. Who am I speaking with today? Hi, Mary. Are you calling because you need health insurance? Great. If you can answer a few questions, we can get you signed up in the Jiffy. So what's your full name? Got it. And what's the best callback number in case we get disconnected? Yep, that'll be fine. Got it. So to confirm, it's 234-554-9312. Excellent. Let's get some additional information for your application. Do you have a job? OK, so then you have a Social Security number as well. OK, and what is your Social Security number please? Sorry, what was that, a 25 or a 225? You cut out for a bit. Alright, thank you so much. And could I have your e-mail address please? Great. Uh That is the last question. So let me take your information and I'll be able to get you signed up right away. Thank you for calling Contoso and I'll be able to get you signed up immediately. One of our agents will call you back in about 24 hours or so to confirm your application. Absolutely. If you need anything else, please give us a call at 1-800-555-5564, extension 123. Thank you very much for calling Contoso. Uh Yes, of course. So the default is a digital membership card, but we can send you a physical card if you prefer. Uh, yeah. Absolutely. I've made a note on your file. You're very welcome. Thank you for calling Contoso and have a great day."
},
{
"channel": 1,
"text": "Hi, my name is Mary Rondo. I'm trying to enroll myself with Contuso. Yes, yeah, I'm calling to sign up for insurance. Okay. So Mary Beth Rondo, last name is R like Romeo, O like Ocean, N like Nancy D, D like Dog, and O like Ocean again. Rondo. I only have a cell phone so I can give you that. Sure, so it's 234-554 and then 9312. Yep, that's right. Uh Yes, I am self-employed. Yes, I do. Uh Sure, so it's 412256789. It's double two, so 412, then another two, then five. Yeah, it's maryrondo@gmail.com. So my first and last name at gmail.com. No periods, no dashes. That was quick. Thank you. Actually, so I have one more question. I'm curious, will I be getting a physical card as proof of coverage? uh Yes. Could you please mail it to me when it's ready? I'd like to have it shipped to, are you ready for my address? So it's 2660 Unit A on Maple Avenue SE, Lansing, and then zip code is 48823. Awesome. Thanks so much."
}
],
"phrases": [
{
"channel": 0,
"offsetMilliseconds": 720,
"durationMilliseconds": 480,
"text": "Hello.",
"words": [
{
"text": "Hello.",
"offsetMilliseconds": 720,
"durationMilliseconds": 480
}
],
"locale": "en-US",
"confidence": 0.9177142
},
{
"channel": 0,
"offsetMilliseconds": 1200,
"durationMilliseconds": 1120,
"text": "Thank you for calling Contoso.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 1200,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 1400,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 1480,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "Contoso.",
"offsetMilliseconds": 1840,
"durationMilliseconds": 480
}
],
"locale": "en-US",
"confidence": 0.9177142
},
{
"channel": 0,
"offsetMilliseconds": 2320,
"durationMilliseconds": 1120,
"text": "Who am I speaking with today?",
"words": [
{
"text": "Who",
"offsetMilliseconds": 2320,
"durationMilliseconds": 160
},
{
"text": "am",
"offsetMilliseconds": 2480,
"durationMilliseconds": 80
},
{
"text": "I",
"offsetMilliseconds": 2560,
"durationMilliseconds": 80
},
{
"text": "speaking",
"offsetMilliseconds": 2640,
"durationMilliseconds": 320
},
{
"text": "with",
"offsetMilliseconds": 2960,
"durationMilliseconds": 160
},
{
"text": "today?",
"offsetMilliseconds": 3120,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.9177142
},
{
"channel": 0,
"offsetMilliseconds": 9520,
"durationMilliseconds": 400,
"text": "Hi, Mary.",
"words": [
{
"text": "Hi,",
"offsetMilliseconds": 9520,
"durationMilliseconds": 80
},
{
"text": "Mary.",
"offsetMilliseconds": 9600,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.9177142
},
// More transcription results...
// Redacted for brevity
{
"channel": 1,
"offsetMilliseconds": 4480,
"durationMilliseconds": 1600,
"text": "Hi, my name is Mary Rondo.",
"words": [
{
"text": "Hi,",
"offsetMilliseconds": 4480,
"durationMilliseconds": 400
},
{
"text": "my",
"offsetMilliseconds": 4880,
"durationMilliseconds": 120
},
{
"text": "name",
"offsetMilliseconds": 5000,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5120,
"durationMilliseconds": 160
},
{
"text": "Mary",
"offsetMilliseconds": 5280,
"durationMilliseconds": 240
},
{
"text": "Rondo.",
"offsetMilliseconds": 5520,
"durationMilliseconds": 560
}
],
"locale": "en-US",
"confidence": 0.8989456
},
{
"channel": 1,
"offsetMilliseconds": 6080,
"durationMilliseconds": 1920,
"text": "I'm trying to enroll myself with Contuso.",
"words": [
{
"text": "I'm",
"offsetMilliseconds": 6080,
"durationMilliseconds": 160
},
{
"text": "trying",
"offsetMilliseconds": 6240,
"durationMilliseconds": 200
},
{
"text": "to",
"offsetMilliseconds": 6440,
"durationMilliseconds": 80
},
{
"text": "enroll",
"offsetMilliseconds": 6520,
"durationMilliseconds": 200
},
{
"text": "myself",
"offsetMilliseconds": 6720,
"durationMilliseconds": 360
},
{
"text": "with",
"offsetMilliseconds": 7080,
"durationMilliseconds": 120
},
{
"text": "Contuso.",
"offsetMilliseconds": 7200,
"durationMilliseconds": 800
}
],
"locale": "en-US",
"confidence": 0.8989456
},
// More transcription results...
// Redacted for brevity
]
}
Вот некоторые параметры свойств для настройки транскрипции, когда вы вызываете операцию Transcriptions - Transcribe.