Azure Speech Services를 사용한 실시간 음성 텍스트 변환에서, '최고'와 같은 한국어 단어가 자주 '1등'으로 전사되는 알려진 문제가 있습니다. 이는 Azure가 구어를 더 표준화된 서면 양식으로 변환하려고 시도하는 텍스트 정규화라는 프로세스를 자동으로 적용하기 때문입니다. 한국어에서는 이러한 과정으로 인해 순위와 관련된 단어가 숫자로 대체되는 경우가 많습니다. 이 문제를 피하려면 기본 전사 출력을 신뢰하기보다는 Azure에서 제공하는 '상세' 출력 형식을 사용하는 것이 좋습니다. 이 형식은 전사된 텍스트의 여러 버전을 제공하며, '어휘' 형태라고 하는 것을 포함합니다. 어휘 형태는 실제로 발화된 내용의 원형 버전을 포함하고 있어 숫자나 표시 친화적인 형식으로 변환되지 않습니다. 이 어휘 버전을 사용하면 '최고'와 같은 원래의 단어를 보존하고 '1등'으로 변경되는 것을 방지할 수 있습니다.
이 접근 방법은 추가적인 모델 훈련이나 복잡한 후처리를 필요로 하지 않습니다. 필요한 경우, 실제로 순위와 관련이 없는 맥락에서는 애플리케이션에서 '1등'을 '최고'로 교체하는 간단한 규칙을 적용할 수도 있습니다. 그러나 일반적으로 상세한 출력에서 나오는 어휘 형태를 사용하는 것이 가장 좋고 쉬운 솔루션입니다.
아래 문서를 참조해 주세요. https://learn.microsoft.com/ko-kr/azure/ai-services/speech-service/display-text-format?utm_source=chatgpt.com&pivots=programming-language-csharp
이것들이 도움이 되길 바랍니다. 감사합니다!