Поделиться через


Отображение форматирования текста с помощью речи в текст

Речь в тексте предлагает массив функций форматирования, чтобы убедиться, что транскрибируемый текст является понятным и понятным. В разделах ниже приведены общие сведения о том, как каждая функция используется для улучшения общей ясности выходных данных окончательного текста.

ITN

Обратная нормализация текста (ITN) — это процесс, преобразующий реченные слова в их письменной форме. Например, произнесенное слово "четыре" преобразуется в написанную форму "4". Речь к текстовой службе завершает этот процесс и не настраивается. Некоторые поддерживаемые текстовые форматы включают даты, время, десятичные разряды, валюты, адреса, электронные письма и номера телефонов. Вы можете говорить естественно, и текст службы форматирует как ожидалось. В следующей таблице показаны правила ITN, применяемые к выходным данным текста.

Распознанная речь Отображаемый текст
that will cost nine hundred dollars That will cost $900.
my phone number is one eight hundred, four five six, eight nine ten My phone number is 1-800-456-8910.
the time is six forty five p m The time is 6:45 PM.
I live on thirty five lexington avenue I live on 35 Lexington Ave.
the answer is six point five The answer is 6.5.
send it to support at help dot com Send it to support@help.com.

Регистр букв

Речь в текстовых моделях распознает слова, которые должны быть заглавными, чтобы улучшить удобочитаемость, точность и грамматику. Например, служба "Речь" автоматически прописывает правильные существительные и слова в начале предложения. В этой таблице показаны некоторые примеры.

Распознанная речь Отображаемый текст
i got an x l t shirt I got an XL t-shirt.
my name is jennifer smith My name is Jennifer Smith.
i want to visit new york city I want to visit New York City.

Удаление неблагополучности

При разговоре, это часто для кого-то запугивать, повторять слова, и говорить заливщик слов, таких как "uhm" или "uh". Речь к тексту может распознавать такие несоверждения и удалять их из отображаемого текста. Удаление небезопасной функции отлично подходит для транскрибирования динамических нескрипированных речей, чтобы прочитать их обратно позже. В этой таблице показаны некоторые примеры.

Распознанная речь Отображаемый текст
i uh said that we can go to the uhmm movies I said that we can go to the movies.
its its not that big of uhm a deal It's not that big of a deal.
umm i think tomorrow should work I think tomorrow should work.

Пунктуация

Речь к тексту автоматически препинает текст для улучшения ясности. Препинание полезно для чтения обратного вызова или транскрибирования бесед. В этой таблице показаны некоторые примеры.

Распознанная речь Отображаемый текст
how are you How are you?
we can go to the mall park or beach We can go to the mall, park, or beach.

При использовании речи для текста с непрерывным распознаванием можно настроить службу "Речь" для распознавания явных знаков препинания. Затем вы можете говорить препинание вслух, чтобы сделать текст более понятным. Это особенно полезно в ситуации, когда вы хотите использовать сложную препинание, не объединяя ее позже. В этой таблице показаны некоторые примеры.

Распознанная речь Отображаемый текст
they entered the room dot dot dot They entered the room...
i heart emoji you period I <3 you.
the options are apple forward slash banana forward slash orange period The options are apple/banana/orange.
are you sure question mark Are you sure?

Используйте пакет SDK службы "Речь", чтобы включить режим диктовки при использовании речи для текста с непрерывным распознаванием. В этом режиме экземпляр конфигурации речи интерпретирует описания слов структур предложений, таких как пунктуация.

speechConfig.EnableDictation();
speechConfig->EnableDictation();
speechConfig.EnableDictation()
speechConfig.enableDictation();
speechConfig.enableDictation();
[self.speechConfig enableDictation];
self.speechConfig!.enableDictation()
speech_config.enable_dictation()

Фильтр ненормативной лексики

Можно указать, следует ли маскировать, удалять или отображать ненормативность в окончательном транскрибированного текста. Маскирование заменяет ненормативные слова звездочкой (*) символами, чтобы сохранить исходное настроение текста, делая его более подходящим для определенных ситуаций.

Примечание.

Майкрософт также оставляет за собой право маскировать или удалять любое слово, которое считается недопустимым. Такие слова не будут возвращены службой "Речь", даже если вы не включили фильтрацию ненормативной лексики.

Параметры фильтра ненормативной лексики:

  • Masked: заменяет буквы в ненормативных словах звездочкой (*). Маскировка — это параметр по умолчанию.
  • Raw: показывает ненормативные слова полностью.
  • Removed: удаляет ненормативные слова.

Например, чтобы удалить ненормативные слова из результата распознавания речи, установите для фильтра ненормативной лексики значение Removed, как показано ниже:

speechConfig.SetProfanity(ProfanityOption.Removed);
speechConfig->SetProfanity(ProfanityOption::Removed);
speechConfig.SetProfanity(common.Removed)
speechConfig.setProfanity(ProfanityOption.Removed);
speechConfig.setProfanity(sdk.ProfanityOption.Removed);
[self.speechConfig setProfanityOptionTo:SPXSpeechConfigProfanityOption.SPXSpeechConfigProfanityOption_ProfanityRemoved];
self.speechConfig!.setProfanityOptionTo(SPXSpeechConfigProfanityOption_ProfanityRemoved)
speech_config.set_profanity(speechsdk.ProfanityOption.Removed)
spx recognize --file caption.this.mp4 --format any --profanity masked --output vtt file - --output srt file -

Фильтр ненормативной лексики применяется к свойствам Text и MaskedNormalizedForm результата. Фильтр ненормативной лексики не применяется к свойствам LexicalForm и NormalizedForm результата. Фильтр не применяется к результатам на уровне слова.