你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
如何创建人为标记的听录
人为标记的听录内容是对音频文件的逐字听录。 使用人为标记的听录内容来评估模型的准确性和提高识别准确性,尤其是针对字词被删除或错误替换的情况。 本指南可帮助你创建高质量的听录。
建议使用具有代表性的听录数据样本来评估模型准确性。 数据应涵盖能代表用户对应用程序所说内容的各种说话者和话语。 对于测试数据,每个单独音频文件的最大持续时间为 2 小时。
需要大的听录数据样本来提高识别准确性。 建议提供 1 到 100 小时的音频数据。 语音服务使用长达 100 小时的音频进行训练(对于不收取训练费用的较旧模型,最长为 20 小时)。 每个单独音频文件不应超过 40 秒(对于 Whisper 自定义,最长为 30 秒)。
本指南分为“美国英语”、“中国大陆普通话”和“德语”三部分。
所有 WAV 文件的听录都包含在单个纯文本文件(.txt 或 .tsv)中。 听录文件的每一行都包含一个音频文件的名称,后接相应的听录。 文件名和听录以制表符 (\t
) 分隔。
例如:
speech01.wav speech recognition is awesome
speech02.wav the quick brown fox jumped all over the place
speech03.wav the lazy dog was not amused
听录内容经过文本规范化,以便系统进行处理。 但是,在上传数据集之前,必须先进行一些重要的规范化处理。
除英语和中文普通话以外,其他语言的人为标记的听录内容都必须采用带字节顺序标记的 UTF-8 编码。 有关其他区域设置的听录要求,请参阅以下部分。
en-US
英语音频的人为标记的听录必须以纯文本形式提供,仅使用 ASCII 字符。 避免使用拉丁语-1 或 Unicode 标点字符。 从文字处理应用程序中复制文本或从网页中擦除数据时,常常会无意中添加这些字符。 如果存在这些字符,请务必将其更新为相应的 ASCII 替代字符。
以下是一些示例:
要避免的字符 | 替换 | 备注 |
---|---|---|
“Hello world” | “Hello world” | 左引号和右引号替换为相应的 ASCII 字符。 |
John’s day | John's day | 撇号替换为相应的 ASCII 字符。 |
It was good—no, it was great! | it was good--no, it was great! | 长划线替换为两个连字符。 |
美国英语的文本规范化
文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:
- 将缩写写成字词。
- 将非标准数字字符串写成字词(例如会计术语)。
- 应按照发音听录非字母字符或混合字母数字字符。
- 不应编辑可以作为字词发音的缩写(例如,“radar”、“laser”、“RAM”或“NATO”)。
- 将发音的缩写写成单独的字母,每个字母用单个空格分开。
- 如果使用音频,请将数字听录为与音频匹配的字词(例如“101”可以读作“one oh one”或“one hundred and one”)。
- 请避免将字符、单词或词组重复三次以上,例如“yeah yeah yeah yeah”。 语音服务可能会出现此类重复的行。
下面是应该对听录执行的规范化的一些示例:
原始文本 | 规范化后的文本(人工) |
---|---|
Dr.Bruce Banner | Doctor Bruce Banner |
James Bond, 007 | James Bond, double oh seven |
Ke$ha | Kesha |
How long is the 2x4 | How long is the two by four |
The meeting goes from 1-3pm | The meeting goes from one to three pm |
My blood type is O+ | My blood type is O positive |
Water is H20 | Water is H 2 O |
Play OU812 by Van Halen | Play O U 8 1 2 by Van Halen |
UTF-8 with BOM | U T F 8 with BOM |
It costs $3.14 | It costs three fourteen |
以下规范化规则自动应用到听录:
- 使用小写字母。
- 删除除字词中撇号外的所有标点。
- 将数字扩展为字词/口语形式,例如美元金额。
下面是自动对听录执行的规范化的一些示例:
原始文本 | 规范化后的文本(自动) |
---|---|
"Holy cow!" said Batman. | holy cow said batman |
"What?" said Batman's sidekick, Robin. | what said batman's sidekick robin |
Go get -em! | go get em |
I'm double-jointed | I'm double jointed |
104 Elm Street | one oh four Elm street |
Tune to 102.7 | tune to one oh two point seven |
Pi is about 3.14 | pi is about three point one four |
de-DE
德语音频的人为标记的听录内容必须采用带字节顺序标记的 UTF-8 编码。
德语文本规范化
文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:
- 将小数点写为“,”,而不是“.”。
- 将时间分隔符写为“:”,而不是“.”(例如:12:00 Uhr)。
- 不会替换缩写,如“ca.”。 我们建议使用完整的口语形式。
- 删除四个主要的数学运算符(+、-、* 和 /)。 我们建议将其替换为文字形式:“plus”、“minus”、“mal”、“geteilt”。
- 删除比较运算符(=、< 和 >)。 我们建议其替换为“gleich”、“kleiner als”和“grösser als”。
- 将分数(例如 3/4)写成文字形式(例如,写成“drei viertel”而不是 3/4)。
- 将“€”符号替换为文字形式“Euro”。
下面是应该对听录执行的规范化的一些示例:
原始文本 | 用户规范化后的文本 | 系统规范化后的文本 |
---|---|---|
Es ist 12.23 Uhr | Es ist 12:23 Uhr | es ist zwölf uhr drei und zwanzig uhr |
{12.45} | {12,45} | zwölf komma vier fünf |
2 + 3 - 4 | 2 plus 3 minus 4 | zwei plus drei minus vier |
以下规范化规则自动应用到听录:
- 对所有文本使用小写字母。
- 删除所有标点,包括多种引号(可以保留 "test"、'test'、"test„ 以及 «test»)。
- 删除包含下述任一特殊字符的行:¢ ¤ ¥ ¦ § © ª ¬ ® ° ± ² µ × ÿ ج¬。
- 将数字扩展为口语形式,包括美元或欧元金额。
- 仅接受 a、o、u 的元音变音符。 其他则替换为“th”或被废弃。
下面是自动对听录执行的规范化的一些示例:
原始文本 | 规范化后的文本 |
---|---|
Frankfurter Ring | frankfurter ring |
¡Eine Frage! | eine frage |
Wir, haben | wir haben |
ja-JP
在日语 (ja-JP) 中,每个句子的最大长度为 90 个字符。 句子较长的行将被废弃。 若要添加更长的文本,请在中间插入一个句点。
zh-CN
中国大陆普通话音频的人为标记的听录必须使用字节顺序标记进行 UTF-8 编码。 避免使用半角标点字符。 在文字处理程序中准备数据或从网页中擦除数据时,可能会无意中包括这些字符。 如果存在这些字符,请务必将其更新为相应的全角替代字符。
以下是一些示例:
要避免的字符 | 替换 | 说明 |
---|---|---|
"你好" | "你好" | 左引号和右引号替换为相应的字符。 |
需要什么帮助? | 需要什么帮助? | 问号替换为相应的字符。 |
中国大陆普通话的文本规范化
文本规范化是指将字词转换为在训练模型时使用的一致格式。 某些规范化规则会自动应用到文本,但我们建议你在准备人为标记的听录数据时遵循以下准则:
- 将缩写写成字词。
- 用口语形式写数字字符串。
下面是应该对听录执行的规范化的一些示例:
原始文本 | 规范化后的文本 |
---|---|
我今年 21 | 我今年二十一 |
3 号楼 504 | 三号 楼 五 零 四 |
以下规范化规则自动应用到听录:
- 删除所有标点。
- 将数字扩展为口语形式。
- 将全角字母扩展为半角字母。
- 对所有英语单词使用大写字母。
下面是自动听录规范化的一些示例:
原始文本 | 规范化后的文本 |
---|---|
3.1415 | 三 点 一 四 一 五 |
¥ 3.5 | 三 元 五 角 |
w f y z | W F Y Z |
1992 年 8 月 8 日 | 一 九 九 二 年 八 月 八 日 |
你吃饭了吗? | 你 吃饭 了 吗 |
下午 5:00 的航班 | 下午 五点 的 航班 |
我今年 21 岁 | 我 今年 二十 一 岁 |