빠른 전사 API는 실시간보다 동기적으로 빠르게 결과를 반환하는 오디오 파일을 전사하는 데 사용됩니다. 다음과 같이 예측 가능한 대기 시간으로 가능한 한 빨리 오디오 녹음 내용을 기록해야 하는 시나리오에서는 빠른 대화 내용 기록을 사용합니다.
일괄 처리 전사 API와 달리 빠른 전사 API는 표시(어휘가 아님) 형식의 전사만 생성합니다. 디스플레이 형식은 문장 부호와 대문자를 포함하여 사람이 읽기 더 쉬운 형태의 전사입니다.
오디오 파일 및 요청 본문 속성을 사용하여 transcriptions
엔드포인트에 대한 multipart/form-data POST 요청을 수행합니다.
다음 예제에서는 지정한 로캘을 사용하여 오디오 파일을 전사하는 방법을 보여줍니다. 오디오 파일의 로캘을 알고 있는 경우 전사 정확도를 향상시키고 대기 시간을 최소화하도록 지정할 수 있습니다.
-
YourSpeechResoureKey
를 Speech 리소스 키로 바꿉니다.
-
YourServiceRegion
을 음성 리소스 지역으로 바꿉니다.
-
YourAudioFile
을 오디오 파일 경로로 바꿉니다.
중요합니다
Microsoft Entra ID를 사용하는 권장 키 없는 인증의 경우, --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
를 --header "Authorization: Bearer YourAccessToken"
로 바꿉니다. 키 없는 인증에 대한 자세한 내용은 역할 기반 액세스 제어 방법 가이드를 참조하세요.
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US"]}"'
다음 지침에 따라 양식 정의를 생성합니다.
- 기록할 오디오 데이터의 예상 로캘과 일치해야 하는 선택적(권장)
locales
속성을 설정합니다. 이 예제에서는 로캘이 en-US
으로 설정됩니다. 지원되는 로캘에 대한 자세한 내용은 음성 텍스트 변환 지원 언어를 참조하세요.
빠른 전사 API의 locales
에 대한 자세한 내용 및 기타 속성은 이 가이드의 뒷부분에 있는 요청 구성 옵션 섹션을 확인하세요.
응답에는 durationMilliseconds
, offsetMilliseconds
및 기타 항목이 포함됩니다.
combinedPhrases
속성에는 모든 화자에 대한 전체 전사가 포함되어 있습니다.
{
"durationMilliseconds": 182439,
"combinedPhrases": [
{
"text": "Good afternoon. This is Sam. Thank you for calling Contoso. How can I help? Hi there. My name is Mary. I'm currently living in Los Angeles, but I'm planning to move to Las Vegas. I would like to apply for a loan. Okay. I see you're currently living in California. Let me make sure I understand you correctly. Uh You'd like to apply for a loan even though you'll be moving soon. Is that right? Yes, exactly. So I'm planning to relocate soon, but I would like to apply for the loan first so that I can purchase a new home once I move there. And are you planning to sell your current home? Yes, I will be listing it on the market soon and hopefully it'll sell quickly. That's why I'm applying for a loan now, so that I can purchase a new house in Nevada and close on it quickly as well once my current home sells. I see. Would you mind holding for a moment while I take your information down? Yeah, no problem. Thank you for your help. Mm-hmm. Just one moment. All right. Thank you for your patience, ma'am. May I have your first and last name, please? Yes, my name is Mary Smith. Thank you, Ms. Smith. May I have your current address, please? Yes. So my address is 123 Main Street in Los Angeles, California, and the zip code is 90923. Sorry, that was a 90 what? 90923. 90923 on Main Street. Got it. Thank you. May I have your phone number as well, please? Uh Yes, my phone number is 504-529-2351 and then yeah. 2351. Got it. And do you have an e-mail address we I can associate with this application? uh Yes, so my e-mail address is mary.a.sm78@gmail.com. Mary.a, was that a S-N as in November or M as in Mike? M as in Mike. Mike78, got it. Thank you. Ms. Smith, do you currently have any other loans? Uh Yes, so I currently have two other loans through Contoso. So my first one is my car loan and then my other is my student loan. They total about 1400 per month combined and my interest rate is 8%. I see. And you're currently paying those loans off monthly, is that right? Yes, of course I do. OK, thank you. Here's what I suggest we do. Let me place you on a brief hold again so that I can talk with one of our loan officers and get this started for you immediately. In the meantime, it would be great if you could take a few minutes and complete the remainder of the secure application online at www.contosoloans.com. Yeah, that sounds good. I can go ahead and get started. Thank you for your help. Thank you."
}
],
"phrases": [
{
"offsetMilliseconds": 960,
"durationMilliseconds": 640,
"text": "Good afternoon.",
"words": [
{
"text": "Good",
"offsetMilliseconds": 960,
"durationMilliseconds": 240
},
{
"text": "afternoon.",
"offsetMilliseconds": 1200,
"durationMilliseconds": 400
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 1600,
"durationMilliseconds": 640,
"text": "This is Sam.",
"words": [
{
"text": "This",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "is",
"offsetMilliseconds": 1840,
"durationMilliseconds": 120
},
{
"text": "Sam.",
"offsetMilliseconds": 1960,
"durationMilliseconds": 280
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 2240,
"durationMilliseconds": 1040,
"text": "Thank you for calling Contoso.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 2240,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 2440,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 2520,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 2640,
"durationMilliseconds": 200
},
{
"text": "Contoso.",
"offsetMilliseconds": 2840,
"durationMilliseconds": 440
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 3280,
"durationMilliseconds": 640,
"text": "How can I help?",
"words": [
{
"text": "How",
"offsetMilliseconds": 3280,
"durationMilliseconds": 120
},
{
"text": "can",
"offsetMilliseconds": 3440,
"durationMilliseconds": 120
},
{
"text": "I",
"offsetMilliseconds": 3560,
"durationMilliseconds": 40
},
{
"text": "help?",
"offsetMilliseconds": 3600,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 5040,
"durationMilliseconds": 400,
"text": "Hi there.",
"words": [
{
"text": "Hi",
"offsetMilliseconds": 5040,
"durationMilliseconds": 240
},
{
"text": "there.",
"offsetMilliseconds": 5280,
"durationMilliseconds": 160
}
],
"locale": "en-US",
"confidence": 0.93554276
},
{
"offsetMilliseconds": 5440,
"durationMilliseconds": 800,
"text": "My name is Mary.",
"words": [
{
"text": "My",
"offsetMilliseconds": 5440,
"durationMilliseconds": 80
},
{
"text": "name",
"offsetMilliseconds": 5520,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5640,
"durationMilliseconds": 80
},
{
"text": "Mary.",
"offsetMilliseconds": 5720,
"durationMilliseconds": 520
}
],
"locale": "en-US",
"confidence": 0.93554276
},
// More transcription results...
// Redacted for brevity
{
"offsetMilliseconds": 180320,
"durationMilliseconds": 680,
"text": "Thank you for your help.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 180320,
"durationMilliseconds": 160
},
{
"text": "you",
"offsetMilliseconds": 180480,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 180560,
"durationMilliseconds": 120
},
{
"text": "your",
"offsetMilliseconds": 180680,
"durationMilliseconds": 120
},
{
"text": "help.",
"offsetMilliseconds": 180800,
"durationMilliseconds": 200
}
],
"locale": "en-US",
"confidence": 0.92022026
},
{
"offsetMilliseconds": 181960,
"durationMilliseconds": 280,
"text": "Thank you.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 181960,
"durationMilliseconds": 200
},
{
"text": "you.",
"offsetMilliseconds": 182160,
"durationMilliseconds": 80
}
],
"locale": "en-US",
"confidence": 0.92022026
}
]
}
오디오 파일 및 요청 본문 속성을 사용하여 transcriptions
엔드포인트에 대한 multipart/form-data POST 요청을 수행합니다.
다음 예제에서는 언어 식별을 사용하여 오디오 파일을 전사하는 방법을 보여줍니다. 로캘에 대해 잘 모르는 경우 여러 로캘을 지정할 수 있습니다. 로캘을 지정하지 않거나 지정한 로캘이 오디오 파일에 없는 경우 Speech Service는 로캘을 식별하려고 시도합니다.
참고
빠른 전사 시 언어 식별 기능은 오디오 파일마다 하나의 주된 언어 지역을 식별하도록 설계되었습니다. 오디오에서 다국어 콘텐츠를 전사해야 하는 경우 다국어 전사(미리 보기)를 고려하세요.
-
YourSpeechResoureKey
를 Speech 리소스 키로 바꿉니다.
-
YourServiceRegion
을 음성 리소스 지역으로 바꿉니다.
-
YourAudioFile
을 오디오 파일 경로로 바꿉니다.
중요합니다
Microsoft Entra ID를 사용하는 권장 키 없는 인증의 경우, --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
를 --header "Authorization: Bearer YourAccessToken"
로 바꿉니다. 키 없는 인증에 대한 자세한 내용은 역할 기반 액세스 제어 방법 가이드를 참조하세요.
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US","ja-JP"]}"'
다음 지침에 따라 양식 정의를 생성합니다.
- 기록할 오디오 데이터의 예상 로캘과 일치해야 하는 선택적(권장)
locales
속성을 설정합니다. 이 예제에서는 로캘이 en-US
및 ja-JP
로 설정됩니다. 지정할 수 있는 지원되는 로캘은 지원되는 모든 언어 내에 있습니다.
빠른 전사 API의 locales
에 대한 자세한 내용 및 기타 속성은 이 가이드의 뒷부분에 있는 요청 구성 옵션 섹션을 확인하세요.
응답에는 durationMilliseconds
, offsetMilliseconds
및 기타 항목이 포함됩니다.
combinedPhrases
속성에는 모든 화자에 대한 전체 전사가 포함되어 있습니다.
{
"durationMilliseconds": 185079,
"combinedPhrases": [
{
"text": "Hello, thank you for calling Contoso. Who am I speaking with today? Hi, my name is Mary Rondo. I'm trying to enroll myself with Contoso. Hi, Mary. Are you calling because you need health insurance? Yes. Yeah, I'm calling to sign up for insurance. Great. Uh If you can answer a few questions, we can get you signed up in a Jiffy. Okay. So what's your full name? uh So Mary Beth Rondo, last name is R like Romeo, O like Ocean, N like Nancy D, D like Dog, and O like Ocean again. Rondo. Got it. And what's the best callback number in case we get disconnected? I only have a cell phone, so I can give you that. Yep, that'll be fine. Sure. So it's 234-554 and then 9312. Got it. So to confirm, it's 234-554-9312. Yep, that's right. Excellent. Let's get some additional information for your application. Do you have a job? Uh Yes, I am self-employed. Okay, so then you have a social security number as well? Uh Yes, I do. Okay, and what is your social security number, please? Uh Sure, so it's 412-253-4931. 6789. Sorry, was that a 25 or a 225? You cut out for a bit. It's double two, so 412, then another two, then five. Thank you so much. And could I have your e-mail address, please? Yeah, it's maryrondo@gmail.com. So my first and last name at gmail.com. No periods, no dashes. Great. Uh That is the last question. So let me take your information and I'll be able to get you signed up right away. Thank you for calling Contoso and I'll be able to get you signed up immediately. One of our agents will call you back in about 24 hours or so to confirm your application. That sounds good. Thank you. Absolutely. If you need anything else, please give us a call at 1-800-555-5564, extension 123. Thank you very much for calling Contoso. Actually, so I have one more question. Yes, of course. I'm curious, will I be getting a physical card as proof of coverage? So the default is a digital membership card, but we can send you a physical card if you prefer. Uh Yes. Could you please mail it to me when it's ready? I'd like to have it shipped to, are you ready for my address? Uh Yeah. uh So it's 2660 Unit A on Maple Avenue, Southeast Lansing, and then zip code is 48823. Absolutely. I've made a note on your file. Awesome. Thanks so much. You're very welcome. Thank you for calling Contoso and have a great day."
}
],
"phrases": [
{
"offsetMilliseconds": 720,
"durationMilliseconds": 1600,
"text": "Hello, thank you for calling Contoso.",
"words": [
{
"text": "Hello,",
"offsetMilliseconds": 720,
"durationMilliseconds": 480
},
{
"text": "thank",
"offsetMilliseconds": 1200,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 1400,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 1480,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "Contoso.",
"offsetMilliseconds": 1840,
"durationMilliseconds": 480
}
],
"locale": "en-US",
"confidence": 0.93265927
},
{
"offsetMilliseconds": 2320,
"durationMilliseconds": 1120,
"text": "Who am I speaking with today?",
"words": [
{
"text": "Who",
"offsetMilliseconds": 2320,
"durationMilliseconds": 160
},
{
"text": "am",
"offsetMilliseconds": 2480,
"durationMilliseconds": 80
},
{
"text": "I",
"offsetMilliseconds": 2560,
"durationMilliseconds": 80
},
{
"text": "speaking",
"offsetMilliseconds": 2640,
"durationMilliseconds": 320
},
{
"text": "with",
"offsetMilliseconds": 2960,
"durationMilliseconds": 160
},
{
"text": "today?",
"offsetMilliseconds": 3120,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.93265927
},
{
"offsetMilliseconds": 4480,
"durationMilliseconds": 1600,
"text": "Hi, my name is Mary Rondo.",
"words": [
{
"text": "Hi,",
"offsetMilliseconds": 4480,
"durationMilliseconds": 400
},
{
"text": "my",
"offsetMilliseconds": 4880,
"durationMilliseconds": 120
},
{
"text": "name",
"offsetMilliseconds": 5000,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5120,
"durationMilliseconds": 160
},
{
"text": "Mary",
"offsetMilliseconds": 5280,
"durationMilliseconds": 240
},
{
"text": "Rondo.",
"offsetMilliseconds": 5520,
"durationMilliseconds": 560
}
],
"locale": "en-US",
"confidence": 0.93265927
},
{
"offsetMilliseconds": 6120,
"durationMilliseconds": 1800,
"text": "I'm trying to enroll myself with Contoso.",
"words": [
{
"text": "I'm",
"offsetMilliseconds": 6120,
"durationMilliseconds": 120
},
{
"text": "trying",
"offsetMilliseconds": 6240,
"durationMilliseconds": 200
},
{
"text": "to",
"offsetMilliseconds": 6440,
"durationMilliseconds": 80
},
{
"text": "enroll",
"offsetMilliseconds": 6520,
"durationMilliseconds": 200
},
{
"text": "myself",
"offsetMilliseconds": 6720,
"durationMilliseconds": 360
},
{
"text": "with",
"offsetMilliseconds": 7080,
"durationMilliseconds": 120
},
{
"text": "Contoso.",
"offsetMilliseconds": 7200,
"durationMilliseconds": 720
}
],
"locale": "en-US",
"confidence": 0.93265927
},
// More transcription results...
// Redacted for brevity
{
"offsetMilliseconds": 181520,
"durationMilliseconds": 720,
"text": "You're very welcome.",
"words": [
{
"text": "You're",
"offsetMilliseconds": 181520,
"durationMilliseconds": 160
},
{
"text": "very",
"offsetMilliseconds": 181680,
"durationMilliseconds": 200
},
{
"text": "welcome.",
"offsetMilliseconds": 181880,
"durationMilliseconds": 360
}
],
"locale": "en-US",
"confidence": 0.90571773
},
{
"offsetMilliseconds": 182320,
"durationMilliseconds": 1840,
"text": "Thank you for calling Contoso and have a great day.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 182320,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 182520,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 182600,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 182720,
"durationMilliseconds": 280
},
{
"text": "Contoso",
"offsetMilliseconds": 183000,
"durationMilliseconds": 520
},
{
"text": "and",
"offsetMilliseconds": 183520,
"durationMilliseconds": 160
},
{
"text": "have",
"offsetMilliseconds": 183680,
"durationMilliseconds": 120
},
{
"text": "a",
"offsetMilliseconds": 183800,
"durationMilliseconds": 40
},
{
"text": "great",
"offsetMilliseconds": 183840,
"durationMilliseconds": 200
},
{
"text": "day.",
"offsetMilliseconds": 184040,
"durationMilliseconds": 120
}
],
"locale": "en-US",
"confidence": 0.90571773
}
]
}
오디오 파일 및 요청 본문 속성을 사용하여 transcriptions
엔드포인트에 대한 multipart/form-data POST 요청을 수행합니다.
다음 예제에서는 최신 다국어 음성 전사 모델을 사용하여 오디오 파일을 전사하는 방법을 보여줍니다. 오디오에 지속적으로 정확하게 전사하려는 다국어 콘텐츠가 포함된 경우 로캘 코드를 지정하지 않고 최신 다국어 음성 전사 모델을 사용할 수 있습니다.
-
YourSpeechResoureKey
를 Speech 리소스 키로 바꿉니다.
-
YourServiceRegion
을 음성 리소스 지역으로 바꿉니다.
-
YourAudioFile
을 오디오 파일 경로로 바꿉니다.
중요합니다
Microsoft Entra ID를 사용하는 권장 키 없는 인증의 경우, --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
를 --header "Authorization: Bearer YourAccessToken"
로 바꿉니다. 키 없는 인증에 대한 자세한 내용은 역할 기반 액세스 제어 방법 가이드를 참조하세요.
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":[]}"'
다음 지침에 따라 양식 정의를 생성합니다.
이전 예제와 locales
같이 속성을 비워 두거나 생략할 수 있습니다.
현재 다국어 모델이 지원하는 오디오 입력 로캘은 de-DE, en-AU, en-CA, en-GB, en-IN, en-US, es-ES, es-MX, fr-CA, fr-FR, hi-IN, it-IT, ja-JP, ko-KR 및 zh-CN입니다.
전사 결과는 언어 수준에서 구별되며 "이 언어의 주요 로캘"(예: 오디오에 영국 영어 또는 인도 영어 악센트가 있더라도 항상 "en-US" 로캘 코드를 출력합니다)을 따릅니다.
빠른 전사 API의 locales
에 대한 자세한 내용 및 기타 속성은 이 가이드의 뒷부분에 있는 요청 구성 옵션 섹션을 확인하세요.
응답에는 durationMilliseconds
, offsetMilliseconds
및 기타 항목이 포함됩니다.
combinedPhrases
속성에는 모든 화자에 대한 전체 전사가 포함되어 있습니다.
{
"durationMilliseconds": 57187,
"combinedPhrases": [
{
"text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products 现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。 Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut. Le modèle de base fonctionne très bien dans la plupart des scénarios de reconnaissance vocale. A custom model can be used to augment the base model to improve recognition of domain specific vocabulary specified to the application by providing text data to train the model. It can also be used to improve recognition based for the specific audio conditions of the application by providing audio data with reference transcriptions."
}
],
"phrases": [
{
"offsetMilliseconds": 80,
"durationMilliseconds": 6960,
"text": "With custom speech,you can evaluate and improve the microsoft speech to text accuracy for your applications and products.",
"words": [
{
"text": "with",
"offsetMilliseconds": 80,
"durationMilliseconds": 160
},
{
"text": "custom",
"offsetMilliseconds": 240,
"durationMilliseconds": 480
},
{
"text": "speech",
"offsetMilliseconds": 720,
"durationMilliseconds": 360
},
{
"text": ",",
"offsetMilliseconds": 1080,
"durationMilliseconds": 10
},
{
"text": "you",
"offsetMilliseconds": 1200,
"durationMilliseconds": 240
},
{
"text": "can",
"offsetMilliseconds": 1440,
"durationMilliseconds": 160
},
{
"text": "evaluate",
"offsetMilliseconds": 1600,
"durationMilliseconds": 640
},
{
"text": "and",
"offsetMilliseconds": 2240,
"durationMilliseconds": 200
},
{
"text": "improve",
"offsetMilliseconds": 2440,
"durationMilliseconds": 280
},
{
"text": "the",
"offsetMilliseconds": 2720,
"durationMilliseconds": 160
},
{
"text": "microsoft",
"offsetMilliseconds": 2880,
"durationMilliseconds": 640
},
{
"text": "speech",
"offsetMilliseconds": 3520,
"durationMilliseconds": 320
},
{
"text": "to",
"offsetMilliseconds": 3840,
"durationMilliseconds": 200
},
{
"text": "text",
"offsetMilliseconds": 4040,
"durationMilliseconds": 360
},
{
"text": "accuracy",
"offsetMilliseconds": 4400,
"durationMilliseconds": 560
},
{
"text": "for",
"offsetMilliseconds": 4960,
"durationMilliseconds": 160
},
{
"text": "your",
"offsetMilliseconds": 5120,
"durationMilliseconds": 200
},
{
"text": "applications",
"offsetMilliseconds": 5320,
"durationMilliseconds": 760
},
{
"text": "and",
"offsetMilliseconds": 6080,
"durationMilliseconds": 200
},
{
"text": "products",
"offsetMilliseconds": 6280,
"durationMilliseconds": 680
},
],
"locale": "en-us",
"confidence": 0.9539559
},
{
"offsetMilliseconds": 8000,
"durationMilliseconds": 8600,
"text": "现成的语音转文本,利用通用语言模型作为一个基本模型,使用microsoft自有数据进行训练,并反映常用的口语。此基础模型使用那些代表各常见领域的方言和发音进行了预先训练。",
"words": [
{
"text": "现",
"offsetMilliseconds": 8000,
"durationMilliseconds": 40
},
{
"text": "成",
"offsetMilliseconds": 8040,
"durationMilliseconds": 40
},
{
"text": "的",
"offsetMilliseconds": 8160,
"durationMilliseconds": 40
},
{
"text": "语",
"offsetMilliseconds": 8200,
"durationMilliseconds": 40
},
{
"text": "音",
"offsetMilliseconds": 8240,
"durationMilliseconds": 40
},
{
"text": "转",
"offsetMilliseconds": 8280,
"durationMilliseconds": 40
},
{
"text": "文",
"offsetMilliseconds": 8320,
"durationMilliseconds": 40
},
{
"text": "本,",
"offsetMilliseconds": 8360,
"durationMilliseconds": 40
},
{
"text": "利",
"offsetMilliseconds": 8400,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 8440,
"durationMilliseconds": 40
},
{
"text": "通",
"offsetMilliseconds": 8480,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 8520,
"durationMilliseconds": 40
},
{
"text": "语",
"offsetMilliseconds": 8560,
"durationMilliseconds": 40
},
{
"text": "言",
"offsetMilliseconds": 8600,
"durationMilliseconds": 40
},
{
"text": "模",
"offsetMilliseconds": 8640,
"durationMilliseconds": 40
},
{
"text": "型",
"offsetMilliseconds": 8680,
"durationMilliseconds": 40
},
{
"text": "作",
"offsetMilliseconds": 8800,
"durationMilliseconds": 40
},
{
"text": "为",
"offsetMilliseconds": 8840,
"durationMilliseconds": 40
},
{
"text": "一",
"offsetMilliseconds": 9520,
"durationMilliseconds": 40
},
{
"text": "个",
"offsetMilliseconds": 9560,
"durationMilliseconds": 40
},
{
"text": "基",
"offsetMilliseconds": 9600,
"durationMilliseconds": 40
},
{
"text": "本",
"offsetMilliseconds": 9640,
"durationMilliseconds": 40
},
{
"text": "模",
"offsetMilliseconds": 9680,
"durationMilliseconds": 40
},
{
"text": "型,",
"offsetMilliseconds": 9720,
"durationMilliseconds": 40
},
{
"text": "使",
"offsetMilliseconds": 9760,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 10080,
"durationMilliseconds": 320
},
{
"text": "microsoft",
"offsetMilliseconds": 10400,
"durationMilliseconds": 3600
},
{
"text": "自",
"offsetMilliseconds": 14000,
"durationMilliseconds": 40
},
{
"text": "有",
"offsetMilliseconds": 14040,
"durationMilliseconds": 40
},
{
"text": "数",
"offsetMilliseconds": 14160,
"durationMilliseconds": 40
},
{
"text": "据",
"offsetMilliseconds": 14200,
"durationMilliseconds": 40
},
{
"text": "进",
"offsetMilliseconds": 14320,
"durationMilliseconds": 40
},
{
"text": "行",
"offsetMilliseconds": 14360,
"durationMilliseconds": 40
},
{
"text": "训",
"offsetMilliseconds": 14400,
"durationMilliseconds": 40
},
{
"text": "练,",
"offsetMilliseconds": 14440,
"durationMilliseconds": 40
},
{
"text": "并",
"offsetMilliseconds": 14480,
"durationMilliseconds": 40
},
{
"text": "反",
"offsetMilliseconds": 14520,
"durationMilliseconds": 40
},
{
"text": "映",
"offsetMilliseconds": 14560,
"durationMilliseconds": 40
},
{
"text": "常",
"offsetMilliseconds": 14600,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 14640,
"durationMilliseconds": 40
},
{
"text": "的",
"offsetMilliseconds": 14680,
"durationMilliseconds": 40
},
{
"text": "口",
"offsetMilliseconds": 14720,
"durationMilliseconds": 40
},
{
"text": "语",
"offsetMilliseconds": 14760,
"durationMilliseconds": 40
},
{
"text": "。",
"offsetMilliseconds": 14800,
"durationMilliseconds": 40
},
{
"text": "此",
"offsetMilliseconds": 14840,
"durationMilliseconds": 40
},
{
"text": "基",
"offsetMilliseconds": 14880,
"durationMilliseconds": 40
},
{
"text": "础",
"offsetMilliseconds": 14920,
"durationMilliseconds": 40
},
{
"text": "模",
"offsetMilliseconds": 14960,
"durationMilliseconds": 40
},
{
"text": "型",
"offsetMilliseconds": 15000,
"durationMilliseconds": 40
},
{
"text": "使",
"offsetMilliseconds": 15040,
"durationMilliseconds": 40
},
{
"text": "用",
"offsetMilliseconds": 15080,
"durationMilliseconds": 40
},
{
"text": "那",
"offsetMilliseconds": 15120,
"durationMilliseconds": 40
},
{
"text": "些",
"offsetMilliseconds": 15160,
"durationMilliseconds": 40
},
{
"text": "代",
"offsetMilliseconds": 15200,
"durationMilliseconds": 40
},
{
"text": "表",
"offsetMilliseconds": 15240,
"durationMilliseconds": 40
},
{
"text": "各",
"offsetMilliseconds": 15280,
"durationMilliseconds": 40
},
{
"text": "常",
"offsetMilliseconds": 15320,
"durationMilliseconds": 40
},
{
"text": "见",
"offsetMilliseconds": 15360,
"durationMilliseconds": 40
},
{
"text": "领",
"offsetMilliseconds": 15400,
"durationMilliseconds": 40
},
{
"text": "域",
"offsetMilliseconds": 15760,
"durationMilliseconds": 40
},
{
"text": "的",
"offsetMilliseconds": 15800,
"durationMilliseconds": 40
},
{
"text": "方",
"offsetMilliseconds": 15920,
"durationMilliseconds": 40
},
{
"text": "言",
"offsetMilliseconds": 15960,
"durationMilliseconds": 40
},
{
"text": "和",
"offsetMilliseconds": 16000,
"durationMilliseconds": 40
},
{
"text": "发",
"offsetMilliseconds": 16040,
"durationMilliseconds": 40
},
{
"text": "音",
"offsetMilliseconds": 16080,
"durationMilliseconds": 40
},
{
"text": "进",
"offsetMilliseconds": 16120,
"durationMilliseconds": 40
},
{
"text": "行",
"offsetMilliseconds": 16160,
"durationMilliseconds": 40
},
{
"text": "了",
"offsetMilliseconds": 16200,
"durationMilliseconds": 40
},
{
"text": "预",
"offsetMilliseconds": 16320,
"durationMilliseconds": 40
},
{
"text": "先",
"offsetMilliseconds": 16360,
"durationMilliseconds": 40
},
{
"text": "训",
"offsetMilliseconds": 16400,
"durationMilliseconds": 40
},
{
"text": "练",
"offsetMilliseconds": 16560,
"durationMilliseconds": 40
},
],
"locale": "zh-cn",
"confidence": 0.9241725
},
{
"offsetMilliseconds": 24320,
"durationMilliseconds": 6640,
"text": "Quand vous effectuez une demande de reconnaissance vocale, le modèle de base le plus récent pour chaque langue prise en charge est utilisé par défaut.",
"words": [
{
"text": "Quand",
"offsetMilliseconds": 24320,
"durationMilliseconds": 160
},
{
"text": "vous",
"offsetMilliseconds": 24480,
"durationMilliseconds": 80
},
// More transcription results...
// Redacted for brevity
{
"text": "scénarios",
"offsetMilliseconds": 34200,
"durationMilliseconds": 400
},
{
"text": "de",
"offsetMilliseconds": 34600,
"durationMilliseconds": 120
},
{
"text": "reconnaissance",
"offsetMilliseconds": 34720,
"durationMilliseconds": 640
},
{
"text": "vocale.",
"offsetMilliseconds": 35360,
"durationMilliseconds": 480
}
],
"locale": "fr-fr",
"confidence": 0.9308314
},
{
"offsetMilliseconds": 36720,
"durationMilliseconds": 10320,
"text": "A custom model can be used to augment the base model to improve recognition of domain specific vocabulary spécifique to the application by providing text data to train the model.",
"words": [
{
"text": "A",
"offsetMilliseconds": 36720,
"durationMilliseconds": 80
},
{
"text": "custom",
"offsetMilliseconds": 36880,
"durationMilliseconds": 400
},
{
"text": "model",
"offsetMilliseconds": 37280,
"durationMilliseconds": 480
},
// More transcription results...
// Redacted for brevity
{
"text": "with",
"offsetMilliseconds": 54720,
"durationMilliseconds": 200
},
{
"text": "reference",
"offsetMilliseconds": 54920,
"durationMilliseconds": 360
},
{
"text": "transcriptions.",
"offsetMilliseconds": 55280,
"durationMilliseconds": 1200
}
],
"locale": "en-us",
"confidence": 0.92155737
}
]
}
오디오 파일 및 요청 본문 속성을 사용하여 transcriptions
엔드포인트에 대한 multipart/form-data POST 요청을 수행합니다.
다음 예에서는 분리 기능을 사용하도록 설정하여 오디오 파일을 기록하는 방법을 보여 줍니다. 다이어리화는 대화에서 서로 다른 화자를 구분합니다. Speech Service는 전사된 음성의 특정 부분을 말하는 화자에 대한 정보를 제공합니다.
-
YourSpeechResoureKey
를 Speech 리소스 키로 바꿉니다.
-
YourServiceRegion
을 음성 리소스 지역으로 바꿉니다.
-
YourAudioFile
을 오디오 파일 경로로 바꿉니다.
중요합니다
Microsoft Entra ID를 사용하는 권장 키 없는 인증의 경우, --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
를 --header "Authorization: Bearer YourAccessToken"
로 바꿉니다. 키 없는 인증에 대한 자세한 내용은 역할 기반 액세스 제어 방법 가이드를 참조하세요.
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US"],
"diarization": {"maxSpeakers": 2,"enabled": true}}"'
다음 지침에 따라 양식 정의를 생성합니다.
기록할 오디오 데이터의 예상 로캘과 일치해야 하는 선택적(권장) locales
속성을 설정합니다. 이 예제에서는 로캘이 en-US
으로 설정됩니다. 지정할 수 있는 지원되는 로캘은 de-DE, en-GB, en-IN, en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, pt-BR 및 zh-CN입니다.
한 오디오 채널에서 diarization
여러 스피커를 인식하고 구분하도록 속성을 설정합니다. 예를 들어 "diarization": {"maxSpeakers": 2, "enabled": true}
을(를) 지정하세요. 그러면 대화 내용 기록 파일에는 기록된 각 구에 대한 speaker
항목이 포함됩니다.
locales
, diarization
및 빠른 대화기록 API의 다른 속성에 대한 자세한 내용은 이 가이드의 뒷부분에 있는 요청 구성 옵션 섹션을 참조하세요.
응답에는 durationMilliseconds
, offsetMilliseconds
및 기타 항목이 포함됩니다. 이 예제에서는 다이어리화를 사용하도록 설정하므로 응답에는 기록된 각 구에 대한 정보가 포함됩니다 speaker
.
combinedPhrases
속성에는 단일 채널의 모든 화자에 대한 전체 대화 내용 기록이 포함되어 있습니다.
{
"durationMilliseconds": 182439,
"combinedPhrases": [
{
"channel": 0,
"text": "Good afternoon. This is Sam. Thank you for calling Contoso. How can I help? Hi there. My name is Mary. I'm currently living in Los Angeles, but I'm planning to move to Las Vegas. I would like to apply for a loan. Okay. I see you're currently living in California. Let me make sure I understand you correctly. Uh You'd like to apply for a loan even though you'll be moving soon. Is that right? Yes, exactly. So I'm planning to relocate soon, but I would like to apply for the loan first so that I can purchase a new home once I move there. And are you planning to sell your current home? Yes, I will be listing it on the market soon and hopefully it'll sell quickly. That's why I'm applying for a loan now, so that I can purchase a new house in Nevada and close on it quickly as well once my current home sells. I see. Would you mind holding for a moment while I take your information down? Yeah, no problem. Thank you for your help. Mm-hmm. Just one moment. All right. Thank you for your patience, ma'am. May I have your first and last name, please? Yes, my name is Mary Smith. Thank you, Ms. Smith. May I have your current address, please? Yes. So my address is 123 Main Street in Los Angeles, California, and the zip code is 90923. Sorry, that was a 90 what? 90923. 90923 on Main Street. Got it. Thank you. May I have your phone number as well, please? Uh. Yes, my phone number is 504-529-2351 and then yeah. 2351. Got it. And do you have an e-mail address we I can associate with this application? Uh Yes, so my e-mail address is mary.a.sm78@gmail.com. Mary.a, was that a S-N as in November or M as in Mike? M as in Mike. Mike78, got it. Thank you. Ms. Smith, do you currently have any other loans? Uh Yes, so I currently have two other loans through Contoso. So my first one is my car loan and then my other is my student loan. They total about 1400 per month combined and my interest rate is 8%. I see. And. You're currently paying those loans off monthly, is that right? Yes, of course I do. OK, thank you. Here's what I suggest we do. Let me place you on a brief hold again so that I can talk with one of our loan officers and get this started for you immediately. In the meantime, it would be great if you could take a few minutes and complete the remainder of the secure application online at www.contosoloans.com. Yeah, that sounds good. I can go ahead and get started. Thank you for your help. Thank you."
}
],
"phrases": [
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 960,
"durationMilliseconds": 640,
"text": "Good afternoon.",
"words": [
{
"text": "Good",
"offsetMilliseconds": 960,
"durationMilliseconds": 240
},
{
"text": "afternoon.",
"offsetMilliseconds": 1200,
"durationMilliseconds": 400
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 1600,
"durationMilliseconds": 640,
"text": "This is Sam.",
"words": [
{
"text": "This",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "is",
"offsetMilliseconds": 1840,
"durationMilliseconds": 120
},
{
"text": "Sam.",
"offsetMilliseconds": 1960,
"durationMilliseconds": 280
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 2240,
"durationMilliseconds": 1040,
"text": "Thank you for calling Contoso.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 2240,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 2440,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 2520,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 2640,
"durationMilliseconds": 200
},
{
"text": "Contoso.",
"offsetMilliseconds": 2840,
"durationMilliseconds": 440
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 3280,
"durationMilliseconds": 640,
"text": "How can I help?",
"words": [
{
"text": "How",
"offsetMilliseconds": 3280,
"durationMilliseconds": 120
},
{
"text": "can",
"offsetMilliseconds": 3440,
"durationMilliseconds": 120
},
{
"text": "I",
"offsetMilliseconds": 3560,
"durationMilliseconds": 40
},
{
"text": "help?",
"offsetMilliseconds": 3600,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 0,
"offsetMilliseconds": 5040,
"durationMilliseconds": 400,
"text": "Hi there.",
"words": [
{
"text": "Hi",
"offsetMilliseconds": 5040,
"durationMilliseconds": 240
},
{
"text": "there.",
"offsetMilliseconds": 5280,
"durationMilliseconds": 160
}
],
"locale": "en-US",
"confidence": 0.93616915
},
{
"channel": 0,
"speaker": 0,
"offsetMilliseconds": 5440,
"durationMilliseconds": 800,
"text": "My name is Mary.",
"words": [
{
"text": "My",
"offsetMilliseconds": 5440,
"durationMilliseconds": 80
},
{
"text": "name",
"offsetMilliseconds": 5520,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5640,
"durationMilliseconds": 80
},
{
"text": "Mary.",
"offsetMilliseconds": 5720,
"durationMilliseconds": 520
}
],
"locale": "en-US",
"confidence": 0.93616915
},
// More transcription results...
// Redacted for brevity
{
"channel": 0,
"speaker": 0,
"offsetMilliseconds": 180320,
"durationMilliseconds": 680,
"text": "Thank you for your help.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 180320,
"durationMilliseconds": 160
},
{
"text": "you",
"offsetMilliseconds": 180480,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 180560,
"durationMilliseconds": 120
},
{
"text": "your",
"offsetMilliseconds": 180680,
"durationMilliseconds": 120
},
{
"text": "help.",
"offsetMilliseconds": 180800,
"durationMilliseconds": 200
}
],
"locale": "en-US",
"confidence": 0.9314801
},
{
"channel": 0,
"speaker": 1,
"offsetMilliseconds": 181960,
"durationMilliseconds": 280,
"text": "Thank you.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 181960,
"durationMilliseconds": 200
},
{
"text": "you.",
"offsetMilliseconds": 182160,
"durationMilliseconds": 80
}
],
"locale": "en-US",
"confidence": 0.9314801
}
]
}
오디오 파일 및 요청 본문 속성을 사용하여 transcriptions
엔드포인트에 대한 multipart/form-data POST 요청을 수행합니다.
다음 예제에서는 하나 또는 두 개의 채널이 있는 오디오 파일을 전사하는 방법을 보여 줍니다. 다중 채널 전사는 여러 스피커가 있는 오디오 파일 또는 배경 소음이 있는 오디오 파일과 같이 여러 채널이 있는 오디오 파일에 유용합니다. 기본적으로 빠른 전사 API는 모든 입력 채널을 단일 채널로 병합한 다음 전사를 수행합니다. 이 방법을 원하지 않는 경우 채널을 병합하지 않고 독립적으로 기록할 수 있습니다.
-
YourSpeechResoureKey
를 Speech 리소스 키로 바꿉니다.
-
YourServiceRegion
을 음성 리소스 지역으로 바꿉니다.
-
YourAudioFile
을 오디오 파일 경로로 바꿉니다.
중요합니다
Microsoft Entra ID를 사용하는 권장 키 없는 인증의 경우, --header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey'
를 --header "Authorization: Bearer YourAccessToken"
로 바꿉니다. 키 없는 인증에 대한 자세한 내용은 역할 기반 액세스 제어 방법 가이드를 참조하세요.
curl --location 'https://YourServiceRegion.api.cognitive.microsoft.com/speechtotext/transcriptions:transcribe?api-version=2024-11-15' \
--header 'Content-Type: multipart/form-data' \
--header 'Ocp-Apim-Subscription-Key: YourSpeechResoureKey' \
--form 'audio=@"YourAudioFile"' \
--form 'definition="{
"locales":["en-US"],
"channels": [0,1]}"'
다음 지침에 따라 양식 정의를 생성합니다.
기록할 오디오 데이터의 예상 로캘과 일치해야 하는 선택적(권장) locales
속성을 설정합니다. 이 예제에서는 로캘이 en-US
으로 설정됩니다. 지정할 수 있는 지원되는 로캘은 de-DE, en-GB, en-IN, en-US, es-ES, es-MX, fr-FR, hi-IN, it-IT, ja-JP, ko-KR, pt-BR 및 zh-CN입니다.
channels
별도로 전사할 채널의 인덱스(0부터 시작)를 지정하도록 속성을 설정합니다. 분리가 사용하도록 설정되지 않은 경우 최대 2개의 채널이 지원됩니다. 이 예제에서는 채널 0과 1이 지정됩니다.
locales
, channels
및 빠른 대화기록 API의 다른 속성에 대한 자세한 내용은 이 가이드의 뒷부분에 있는 요청 구성 옵션 섹션을 참조하세요.
응답에는 durationMilliseconds
, offsetMilliseconds
및 기타 항목이 포함됩니다. 오디오 파일에 여러 채널이 포함된 경우 이 channel
속성은 채널을 식별합니다.
combinedPhrases
속성에는 오디오 채널별로 전체 대화 내용 기록이 포함되어 있습니다. 각 채널의 전체 대화 내용 기록을 식별하려면 "channel": 0,"text"
와 "channel": 1,"text"
를 찾습니다.
{
"durationMilliseconds": 185079,
"combinedPhrases": [
{
"channel": 0,
"text": "Hello. Thank you for calling Contoso. Who am I speaking with today? Hi, Mary. Are you calling because you need health insurance? Great. If you can answer a few questions, we can get you signed up in the Jiffy. So what's your full name? Got it. And what's the best callback number in case we get disconnected? Yep, that'll be fine. Got it. So to confirm, it's 234-554-9312. Excellent. Let's get some additional information for your application. Do you have a job? OK, so then you have a Social Security number as well. OK, and what is your Social Security number please? Sorry, what was that, a 25 or a 225? You cut out for a bit. Alright, thank you so much. And could I have your e-mail address please? Great. Uh That is the last question. So let me take your information and I'll be able to get you signed up right away. Thank you for calling Contoso and I'll be able to get you signed up immediately. One of our agents will call you back in about 24 hours or so to confirm your application. Absolutely. If you need anything else, please give us a call at 1-800-555-5564, extension 123. Thank you very much for calling Contoso. Uh Yes, of course. So the default is a digital membership card, but we can send you a physical card if you prefer. Uh, yeah. Absolutely. I've made a note on your file. You're very welcome. Thank you for calling Contoso and have a great day."
},
{
"channel": 1,
"text": "Hi, my name is Mary Rondo. I'm trying to enroll myself with Contuso. Yes, yeah, I'm calling to sign up for insurance. Okay. So Mary Beth Rondo, last name is R like Romeo, O like Ocean, N like Nancy D, D like Dog, and O like Ocean again. Rondo. I only have a cell phone so I can give you that. Sure, so it's 234-554 and then 9312. Yep, that's right. Uh Yes, I am self-employed. Yes, I do. Uh Sure, so it's 412256789. It's double two, so 412, then another two, then five. Yeah, it's maryrondo@gmail.com. So my first and last name at gmail.com. No periods, no dashes. That was quick. Thank you. Actually, so I have one more question. I'm curious, will I be getting a physical card as proof of coverage? uh Yes. Could you please mail it to me when it's ready? I'd like to have it shipped to, are you ready for my address? So it's 2660 Unit A on Maple Avenue SE, Lansing, and then zip code is 48823. Awesome. Thanks so much."
}
],
"phrases": [
{
"channel": 0,
"offsetMilliseconds": 720,
"durationMilliseconds": 480,
"text": "Hello.",
"words": [
{
"text": "Hello.",
"offsetMilliseconds": 720,
"durationMilliseconds": 480
}
],
"locale": "en-US",
"confidence": 0.9177142
},
{
"channel": 0,
"offsetMilliseconds": 1200,
"durationMilliseconds": 1120,
"text": "Thank you for calling Contoso.",
"words": [
{
"text": "Thank",
"offsetMilliseconds": 1200,
"durationMilliseconds": 200
},
{
"text": "you",
"offsetMilliseconds": 1400,
"durationMilliseconds": 80
},
{
"text": "for",
"offsetMilliseconds": 1480,
"durationMilliseconds": 120
},
{
"text": "calling",
"offsetMilliseconds": 1600,
"durationMilliseconds": 240
},
{
"text": "Contoso.",
"offsetMilliseconds": 1840,
"durationMilliseconds": 480
}
],
"locale": "en-US",
"confidence": 0.9177142
},
{
"channel": 0,
"offsetMilliseconds": 2320,
"durationMilliseconds": 1120,
"text": "Who am I speaking with today?",
"words": [
{
"text": "Who",
"offsetMilliseconds": 2320,
"durationMilliseconds": 160
},
{
"text": "am",
"offsetMilliseconds": 2480,
"durationMilliseconds": 80
},
{
"text": "I",
"offsetMilliseconds": 2560,
"durationMilliseconds": 80
},
{
"text": "speaking",
"offsetMilliseconds": 2640,
"durationMilliseconds": 320
},
{
"text": "with",
"offsetMilliseconds": 2960,
"durationMilliseconds": 160
},
{
"text": "today?",
"offsetMilliseconds": 3120,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.9177142
},
{
"channel": 0,
"offsetMilliseconds": 9520,
"durationMilliseconds": 400,
"text": "Hi, Mary.",
"words": [
{
"text": "Hi,",
"offsetMilliseconds": 9520,
"durationMilliseconds": 80
},
{
"text": "Mary.",
"offsetMilliseconds": 9600,
"durationMilliseconds": 320
}
],
"locale": "en-US",
"confidence": 0.9177142
},
// More transcription results...
// Redacted for brevity
{
"channel": 1,
"offsetMilliseconds": 4480,
"durationMilliseconds": 1600,
"text": "Hi, my name is Mary Rondo.",
"words": [
{
"text": "Hi,",
"offsetMilliseconds": 4480,
"durationMilliseconds": 400
},
{
"text": "my",
"offsetMilliseconds": 4880,
"durationMilliseconds": 120
},
{
"text": "name",
"offsetMilliseconds": 5000,
"durationMilliseconds": 120
},
{
"text": "is",
"offsetMilliseconds": 5120,
"durationMilliseconds": 160
},
{
"text": "Mary",
"offsetMilliseconds": 5280,
"durationMilliseconds": 240
},
{
"text": "Rondo.",
"offsetMilliseconds": 5520,
"durationMilliseconds": 560
}
],
"locale": "en-US",
"confidence": 0.8989456
},
{
"channel": 1,
"offsetMilliseconds": 6080,
"durationMilliseconds": 1920,
"text": "I'm trying to enroll myself with Contuso.",
"words": [
{
"text": "I'm",
"offsetMilliseconds": 6080,
"durationMilliseconds": 160
},
{
"text": "trying",
"offsetMilliseconds": 6240,
"durationMilliseconds": 200
},
{
"text": "to",
"offsetMilliseconds": 6440,
"durationMilliseconds": 80
},
{
"text": "enroll",
"offsetMilliseconds": 6520,
"durationMilliseconds": 200
},
{
"text": "myself",
"offsetMilliseconds": 6720,
"durationMilliseconds": 360
},
{
"text": "with",
"offsetMilliseconds": 7080,
"durationMilliseconds": 120
},
{
"text": "Contuso.",
"offsetMilliseconds": 7200,
"durationMilliseconds": 800
}
],
"locale": "en-US",
"confidence": 0.8989456
},
// More transcription results...
// Redacted for brevity
]
}