음성 텍스트 변환으로 텍스트 서식을 표시합니다.
음성 텍스트 변환은 기록된 텍스트가 명확하고 읽을 수 있도록 다양한 서식 기능을 제공합니다. 각 기능을 사용하여 최종 텍스트 출력의 전반적인 명확성을 개선하는 방법에 대한 개요는 아래 섹션을 참조하세요.
ITN
ITN(Inverse Text Normalization)은 음성을 글로 변환하는 프로세스입니다. 예를 들어, 음성 "four"는 서면 형식 "4"로 변환됩니다. 음성 텍스트 변환 서비스는 이 프로세스를 완료하며 구성할 수 없습니다. 지원되는 일부 텍스트 형식에는 날짜, 시간, 소수점, 통화, 주소, 이메일 및 전화번호가 포함됩니다. 자연스럽게 말할 수 있으며 서비스는 예상대로 텍스트 형식을 지정합니다. 다음 표는 텍스트 출력에 적용되는 ITN 규칙을 보여 줍니다.
인식된 음성 | 표시 텍스트 |
---|---|
that will cost nine hundred dollars |
That will cost $900. |
my phone number is one eight hundred, four five six, eight nine ten |
My phone number is 1-800-456-8910. |
the time is six forty five p m |
The time is 6:45 PM. |
I live on thirty five lexington avenue |
I live on 35 Lexington Ave. |
the answer is six point five |
The answer is 6.5. |
send it to support at help dot com |
Send it to support@help.com. |
대문자 적용
음성 텍스트 변환 모델은 가독성, 정확도 및 문법을 개선하기 위해 대문자로 표기해야 하는 단어를 인식합니다. 예를 들어 Speech Service는 문장 시작 부분에서 적절한 명사와 단어를 자동으로 대문자로 표시합니다. 몇 가지 예가 이 표에 나와 있습니다.
인식된 음성 | 표시 텍스트 |
---|---|
i got an x l t shirt |
I got an XL t-shirt. |
my name is jennifer smith |
My name is Jennifer Smith. |
i want to visit new york city |
I want to visit New York City. |
말더듬 제거
말을 할 때 말을 더듬고, 단어를 중복하고, "음" 또는 "어"와 같은 추가 단어를 말하는 것이 일반적입니다. 음성 텍스트 변환은 이러한 말더듬을 인식하고 표시 텍스트에서 제거할 수 있습니다. 말더듬 제거는 대본 없는 실시간 연설을 기록하여 나중에 다시 읽는 데 유용합니다. 몇 가지 예가 이 표에 나와 있습니다.
인식된 음성 | 표시 텍스트 |
---|---|
i uh said that we can go to the uhmm movies |
I said that we can go to the movies. |
its its not that big of uhm a deal |
It's not that big of a deal. |
umm i think tomorrow should work |
I think tomorrow should work. |
문장 부호
음성 텍스트 변환은 명확성을 높이기 위해 자동으로 텍스트에 문장 부호를 추가합니다. 문장 부호는 통화 또는 대화 내용 기록을 읽을 때 유용합니다. 몇 가지 예가 이 표에 나와 있습니다.
인식된 음성 | 표시 텍스트 |
---|---|
how are you |
How are you? |
we can go to the mall park or beach |
We can go to the mall, park, or beach. |
연속 인식과 함께 음성 텍스트 변환을 사용하는 경우 명시적 문장 부호를 인식하도록 Speech Services를 구성할 수 있습니다. 그런 다음 텍스트를 더 읽기 쉽게 만들기 위해 문장 부호를 큰 소리로 말할 수 있습니다. 이는 나중에 병합하지 않고 복잡한 문장 부호를 사용하려는 상황에서 특히 유용합니다. 몇 가지 예가 이 표에 나와 있습니다.
인식된 음성 | 표시 텍스트 |
---|---|
they entered the room dot dot dot |
They entered the room... |
i heart emoji you period |
I <3 you. |
the options are apple forward slash banana forward slash orange period |
The options are apple/banana/orange. |
are you sure question mark |
Are you sure? |
지속적인 인식을 통해 음성을 텍스트로 변환하는 경우 음성 SDK를 사용하여 받아쓰기 모드를 사용하도록 설정합니다. 이 모드에서는 음성 구성 인스턴스가 문장 부호와 같은 문장 구조의 단어 설명을 해석합니다.
speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()
욕설 필터
최종 기록된 텍스트에서 욕설을 마스킹, 제거 또는 표시할지 여부를 지정할 수 있습니다. 마스킹은 비속어를 별표(*) 문자로 바꿔 텍스트의 원래 감정을 유지하면서 특정 상황에 더 적합하게 만들 수 있습니다.
참고 항목
Microsoft는 또한 부적절하다고 판단되는 단어를 마스킹하거나 제거할 수 있는 권한을 보유합니다. 이러한 단어는 욕설 필터링을 사용하도록 설정했는지 여부에 관계없이 Speech Services에서 반환되지 않습니다.
욕설 필터 옵션은 다음과 같습니다.
Masked
: 욕설의 문자를 별표(*) 문자로 바꿉니다. 마스크됨이 기본 옵션입니다.Raw
: 욕설 단어를 그대로 포함합니다.Removed
: 욕설을 제거합니다.
예를 들어 음성 인식 결과에서 비속어를 제거하려면 다음과 같이 비속어 필터를 Removed
로 설정합니다.
speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -
욕설 필터는 결과 Text
및 MaskedNormalizedForm
속성에 적용됩니다. 욕설 필터는 결과 LexicalForm
및 NormalizedForm
속성에 적용되지 않습니다. 단어 수준 결과에도 필터가 적용되지 않습니다.