跳转至

训练数据需求说明

1、录音文本

(1)按照项目需求提供所有录音数据对应的命令词文本;

(2)命令词音节长度建议在4-8个音节,中文基本一字为一音节,如打开空调为4个音节,其他语种以一个元音单位为一个音节,如英文’air -con di tion er’为5个音节;

(3)小语种命令词需提供文本对应的中文释义或英文释义;

(4)小语种中包含的外来语应尽量提供其对应语种的拼写形式,

如:中文中“USB”可写为“you1 ai5 si5 bi4”,

韩语中“time”可写为“타이머”,

越南语“massage”可写为“Mát xa”;

(5)将文本中所有的阿拉伯数据转写成录音语种对应的文字格式,

如:中文“1小时”需改写为“一小时”,

英语“1 hour”需改写为“one hour”,

韩语“1 시간”需改写为“한 시간”;

2、录音人员及流程

(1)训练集音频录音人建议主要选取年龄在18-60的人群,

(2)小语种开发训练的数据采集,建议采集人次不低于50人次;若是喉音、颤音等特殊发音较多语种,则建议录制人数不低于100人次;

(3)中文项目增强训练的数据采集,建议采集人次不低于150人次;若是新开发领域的项目,则建议录制人数不低于300人次;

(4)以当地标准口音录制,尽量不要带太重的地方口音;

(5)录音人文字识别朗读无困难,且发音流畅,避免卡顿或一个字一个字发音的情况;

(6)相同命令词至少录制3遍,正常语速1遍,快语速2遍;

(7)唤醒词每人次录制不少于10遍;

(8)单个命令词录音过程不中断;

(9)语速平稳,并避免音量参差不齐;

(10)建议性别比例1:1;

(11)发音人面对最近mic分贝在65-80dB左右;

(12)采集时记录发音人的性别、年龄和籍贯信息,记录录音使用的录音设备及型号(如罗兰R44录音机、或华为mate50等),并与其音频存储的文件一一对应;

(13)提供与音频发音顺序对应的录音文本;

3、采集设备及环境要求(高保真录音机)

(1)最好适宜家居环境,现场混响范围在0.3-0.6;

(2)房间底噪在35-45dB;

(3)最好使用罗兰高保真录音机,根据现场环境调试设备增益和灵敏度;

(4)mic 选取舒伯乐 ECM999 麦克风四个,对应不同距离 mic 采集音频;

(5)麦克风放在距离发声源 0.5m、1m、3m、5m 位置,如有必要可同时放置不同角度对应的mic进行录音;

(6)现场环境保持安静,无明显的干扰噪音,现场环境搭建如下:

4、采集设备及环境要求(手机/电脑/高保真录音笔)

(1)手机/电脑录音需保证较高的音频质量,采样率不低于44.1k,且避免传输时造成音质受损;

(2)使用手持高保真录音笔,选择44.1k采样率单声道进行录制;

(3)使用手机/电脑/手持高保真录音笔时,将收音设备放在距离发音人3m的位置;

(4)最好适宜家居环境,录音环境混响尽量小,建议0.3-0.6;

(5)房间底噪在35-40dB;

(6)吐字清晰,保证声音不要削顶,减少数据损失;

(7)若多个命令词连续录制,则每句话间隔1-2s,念错的命令词单句间隔10s,重新读;

(8)现场环境保持安静,无明显的干扰噪音;

(9)音频存储格式wav、采样率不低于44.1K;

5、数据存储注意事项

(1) 命令词较少时,建议每条命令词存储为1个文件,并提供对应的文本;

(2) 命令词较多时,可录制为长音频,不切分,但需提供与录音顺序相同的录音文本。