语音AI平台上传附件填写规范¶
1、演示固件快速开发¶
1.1、命令词播报词列表V3_中文模板¶
中文命令词 |
---|
1、一般为4-6个字,4个字最佳,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词中相邻汉字的声韵母区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“吃饭啦” |
5、生僻字和零声母字应尽量避免,如“语音识别”中“语音”两个字均为零声母字 |
6、命令词中的字最好不要有语气词,如“啊”、“呢”等 |
7、应避免使用叠词,如:“你好你好” |
8、中文命令词中只能由纯汉字组成,不允许有空格、逗号等其他字符 |
9、命令词中的数字需要以汉字表示,如“调高一度”、“二十六度” |
10、若您还未确定命令词,建议您从平台的“命令词推荐”中选择。 命令词推荐|唤醒词推荐 |
中文播报语句 |
---|
1、播报语句为播报的文本内容,一般为10字以内,语句过长会导致体验下降 |
2、语句间隔可以用逗号隔开,例如“好的,打开空调” |
3、标点符号作用只有间隔作用,无法达到语气效果 |
4、[=*]用于表示前一个汉字的指定拼音。 例如: 打开空调[=tiao2] 音调[=diao4]升高 其中,数字代表音调,支持1~5,5为轻声 |
5、[n*]用于表示为标记前的数字发音方式。 例如: 1300[n1] 1300[n2] 其中,n1指定为号码发音:一千三百;n2指定为数值发音:一三零零 |
6、“+”用于表示一条播报音被分成前后两段音频组合而成。例如:好的+空调已为您打开 好的+已关机 其中,“+”添加到句子中明显停顿的地方(如逗号、句号等处),合成的音频效果更为自然。注意:每个命令词最多支持15段音频组合 |
1.2、命令词播报词列表V3_英文模板¶
英文命令词 |
---|
1、建议由2-4个单词(4-6个音节)组成,过短容误识高,过长不便用户记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“HI、HELLO” |
5、避免使用相似音节,词的发音清晰响度要大,如避免同时使用TURN-ON和TURN-OFF |
6、应避免使用叠词,如:“HELLO-HELLO” |
7、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
8、英文命令词中只能由纯英文组成,且所有单词全部大写,不允许有空格、逗号等其他字符 |
9、如果一个命令词由多个单词组成,那么单词与单词之间用中横线连接,如:HELLO-AIR |
10、命令词中的阿拉伯数字需要以英文表示,如“UP-ONE-DEGREES”、“THIRTY-DEGREES” |
英文播报语句 |
---|
1、播报语句为播报的文本内容,一般为10个单词以内,语句过长会导致体验下降 |
2、播报语句的所有单词字母均为小写,单词之间用空格分隔 |
3、播报语句间隔可以用逗号隔开,例如“yes,I am here” |
4、标点符号作用只有间隔作用,无法达到语气效果 |
5、“+”用于表示一条播报音被分成前后两段音频组合而成。例如:“The air conditioning has been+turned on”、“The air conditioning has been+set to cooling” 其中,“+”添加到句子中明显停顿的地方(如逗号、句号等处),合成的音频效果更为自然。注意:每个命令词最多支持15段音频组合 |
2、产品固件及SDK深度开发¶
2.1、命令词播报词协议列表V3_中文模板¶
中文命令词 |
---|
1、一般为4-6个字,4个字最佳,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词中相邻汉字的声韵母区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“吃饭啦” |
5、生僻字和零声母字应尽量避免,如“语音识别”中“语音”两个字均为零声母字 |
6、命令词中的字最好不要有语气词,如“啊”、“呢”等 |
7、应避免使用叠词,如:“你好你好” |
8、中文命令词中只能由纯汉字组成,不允许有空格、逗号等其他字符 |
9、命令词中的数字需要以汉字表示,如“调高一度”、“二十六度” |
10、若您还未确定命令词,建议您从平台的“命令词推荐”中选择。 命令词推荐|唤醒词推荐 |
语义标签 |
---|
1、语义标签用于标记同一语义的命令词 |
2、相同语义的命令词,语义标签一样,如:“打开空调”、“开启空调”、“开空调”的语义标签必须相同 |
3、语义标签为正整数,取值范围为:1~65535 |
4、相同语义命令词的播报语句内容可以一样,也可以不一样。播报语句内容一样时,平台会自动根据播报音内容进行去重;播报语句不一样时,当识别到该语义的任何一个命令词时,系统进行随机播报 |
5、相同语义命令词的发送协议和接收协议必须一样。如果存在不一样,平台自动进行提示 |
命令词类型 |
---|
1、命令词有三种类型:唤醒词、命令词、负性词。唤醒词用于唤醒语音系统,如“智能管家”;命令词即语音指令词,如“打开空调”;负性词用于降低非命令词语音的误识别,如,当在噪声条件下说“打开电视”时,有概率触发“打开空调”的指令,但“打开电视”非命令词指令,此时,可将“打开电视”标记为负性词加入,以降低“打开空调”的误识别 |
2、播报语句有三种类型:播报语、欢迎语、休息语。播报语仅用于播报,当语音模组接收到指定播报内容的串口协议时进行播报;欢迎语用于上电播报,提示系统上电成功;休息语是指语音系统从已唤醒的转台切换到非唤醒的状态进行提示的播报 |
3、当播报语的类型标记为“欢迎语”时,其对应的命令词可用“欢迎语”进行占位;当播报语的类型标记为“休息语”时,其对应的命令词可用“休息语”进行占位 |
中文播报语句 |
---|
1、播报语句为播报的文本内容,一般为10字以内,语句过长会导致体验下降 |
2、语句间隔可以用逗号隔开,例如“好的,打开空调” |
3、标点符号作用只有间隔作用,无法达到语气效果 |
4、[=*]用于表示前一个汉字的指定拼音。 例如: 打开空调[=tiao2] 音调[=diao4]升高 其中,数字代表音调,支持1~5,5为轻声 |
5、[n*]用于表示为标记前的数字发音方式。 例如: 1300[n1] 1300[n2] 其中,n1指定为号码发音:一千三百;n2指定为数值发音:一三零零 |
6、“+”用于表示一条播报音被分成前后两段音频组合而成。例如:好的+空调已为您打开 好的+已关机 其中,“+”添加到句子中明显停顿的地方(如逗号、句号等处),合成的音频效果更为自然。注意:每个命令词最多支持15段音频组合 |
播报模式 |
---|
1、播报模式分为两种:主动播报和被动播报 |
2、主动播报是指:语音系统识别到某个命令词时,播报对应的播报语句 |
3、被动播报是指:语音系统识别到某个命令词时,不进行任何播报;只有当接收到指定协议时才进行对应播报语句的播报 |
发送协议 |
---|
发送协议是指:语音系统识别到某个命令词时,通过通信串口将该命令词对应的协议发送给上位机 |
接收协议 |
---|
接收协议是指:语音系统通过串口接收某条协议时,系统播报协议对应的播报语句或处理协议对应的功能 |
其他隐藏功能 |
---|
1、如果命令词中存在音量控制相关的命令词,系统会自动实现对应的功能。如,命令词中存在“增大音量”或“减小音量”,当语音系统处于唤醒状态下并且识别到“增大音量”或“减小音量”时,语音系统会自动修改播报音量 |
2、如果某个命令词的识别不够灵敏,可在页面上更改该命令词的置信度阈值提高其识别灵敏度(非自动优化模式);也可以增加同一语义的命令词以提高其识别泛化性 |
2.2、命令词播报词协议列表V3_自然说_中文模板¶
2.2.1、中文命令词
1、一般为4-6个字,4个字最佳,过短容误识高,过长不便用户呼叫和记忆;
2、命令词中相邻汉字的声韵母区分度越大越好;
3、符合用户的语言习惯,是常用的说法,内容具体直接;
4、应避免使用日常用语,如:“吃饭啦”;
5、生僻字和零声母字应尽量避免,如“语音识别”中“语音”两个字均为零声母字;
6、命令词中的字最好不要有语气词,如“啊”、“呢”等;
7、应避免使用叠词,如:“你好你好”;
8、中文命令词中只能由纯汉字组成,不允许有空格,逗号等其他字符;
9、命令词中的数字需要以汉字表示,如“调高一度”、“二十六度”;
10、若您还未确定命令词,建议您从平台的“命令词推荐”中选择;命令词推荐|唤醒词推荐。
2.2.2、上传表格填写说明
上传表格示例如下:
1、语义标签:从1开始,依次增加,每个语义对应一个唯一的标签(数字);
2、最小功能词:表示一个最小的功能语义,用户在页面上可根据产品进行查询有哪些推荐的最小功能词;
3、语义标签与最小功能词只需填写一行,且两个字段必须填写;从上往下,在遇到新的语义标签之前,所有的泛化词都属于该语义标签和最小功能词;
4、功能泛化词:对最最小功能词的不同说法进行泛化,可以不填写,也可用填写。
不填写时:如果最小功能词在库中,则会将库中的所有泛化词加入到模型中,否则不做处理;
填写时:如果最小功能词在库中,则会将库中的所有泛化词和表格中的泛化词合并去重后加入到模型中,否则以当前表格中的泛化词作为命令词;
泛化词填写时,每个返回句型或句式占一行,填写规则稍后再详细阐述;
5、功能类型:分为唤醒词、命令词、负性词、欢迎语、休息语和播报语,每行都须填写;
6、唤醒词不能进行泛化,即使填写,后台也不会加入语言模型中。
7、播报语句:播报语句有三种类型:播报语、欢迎语、休息语。播报语仅用于播报,当语音模组接收到指定播报内容的串口协议时进行播报;欢迎语用于上电播报,提示系统上电成功;休息语是指语音系统从已唤醒的转台切换到非唤醒的状态进行提示的播报;
8、播报模式:播报模式分为两种:主动播报和被动播报;主动播报是指语音系统识别到某个命令词时,播报对应的播报语句,而被动播报是指语音系统识别到某个命令词时,不进行任何播报;只有当接收到指定协议时才进行对应播报语句的播报;
9、发送协议:发送协议是指语音系统识别到某个命令词时,通过通信串口将该命令词对应的协议发送给上位机;
10、接收协议:接收协议是指语音系统通过串口接收某条协议时,系统播报协议对应的播报语句或处理协议对应的功能。
备注
所上传的表格样例可在“语音AI平台”的“产品固件及SDK深度开发”功能中找到“附件样例”点击即可进行下载,如下图:
2.2.3、泛化词填写说明及规则
为了用较少的基础词汇枚举出更多的泛化命令词以及减少命令词在cmd_info表格([60000]{cmd_info}.xlsx)中的输出,故制定了一套规则,使用时需根据不同的句型或句式按规则进行枚举。
1、规则符号种类:包括“/”、“[]”、“<>”、“!”四种基本符号,他们之间可以按照一定规则进行组合使用。
2、“/”符号:表示或的关系,常与“[]”组合使用,如:关闭/关掉/关一下/关下;再如:大声点/大点声/调大音量。
3、“[]”符号:用于基础词间的组合,达到以最小的基础词表示最多的命令词,规定取括号中的第一个作为输出;可与“/”,“<>”组合使用。
- 单个“[]”使用,如:[调大音量],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
调大音量 | 调大音量 |
- 再如:[打开风扇/吹一下风],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
打开风扇 | 打开风扇 |
吹一下风 | 打开风扇 |
- 多个“[]”一起使用,[定时][两小时][三十分],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
定时两小时三十分 | 定时两小时三十分 |
- 与“/”配合使用,如:[定时/计时][两小时/二小时],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
定时两小时 | 定时两小时 |
定时二小时 | 定时两小时 |
计时两小时 | 定时两小时 |
计时二小时 | 定时两小时 |
- 再如:[定时][两小时/二小时],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
定时两小时 | 定时两小时 |
定时二小时 | 定时两小时 |
- “<>”符号,表示前缀,常加在“[]”符号最前面,用于输入,不做输出,一个句型或句式中有且仅允许一对“<>”,且必须在句子的最前面,如:<请/帮我>[打开/开下][风扇/电风扇],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
请打开风扇 | 打开风扇 |
请开下风扇 | 打开风扇 |
请打开电风扇 | 打开风扇 |
请开下电风扇 | 打开风扇 |
帮我打开风扇 | 打开风扇 |
帮我开下风扇 | 打开风扇 |
帮我打开电风扇 | 打开风扇 |
帮我开下电风扇 | 打开风扇 |
再如:<请/帮我/>[打开/开下][风扇/电风扇],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
请打开风扇 | 打开风扇 |
请开下风扇 | 打开风扇 |
请打开电风扇 | 打开风扇 |
请开下电风扇 | 打开风扇 |
帮我打开风扇 | 打开风扇 |
帮我开下风扇 | 打开风扇 |
帮我打开电风扇 | 打开风扇 |
帮我开下电风扇 | 打开风扇 |
打开风扇 | 打开风扇 |
开下风扇 | 打开风扇 |
打开电风扇 | 打开风扇 |
开下电风扇 | 打开风扇 |
- “!”符号:表示被标记词的输入输出在分词文件和cmdinfo表格中需要单独进行处理,每个词占一行,如:开机!
命令词 | cmd_info输出 |
---|---|
开机 | 开机 |
- “/”特殊应用,如果返回句型中仅有“/”符号时,那么其中的命令词会按字数进行分类并输出第一个,如:大声点/大点声/调大音量,将其展开后如下:
命令词 | cmd_info输出 |
---|---|
大声点 | 大声点 |
大点声 | 大声点 |
调大音量 | 调大音量 |
- 斜杠“/”在尖括号“<>”中的最后面出现,如:<请/帮我/我想/我要/>[关][风扇/轰扇/电扇/电风扇/循环扇],则表示如下两组说法同时生效;
<请/帮我/我想/我要>[关][风扇/轰扇/电扇/电风扇/循环扇]
[关][风扇/轰扇/电扇/电风扇/循环扇]
2.2.4、注意事项
1、“<>”、”[]”、“!”不能嵌套使用,如下格式不被允许:
<[打开/开启][空调]>;[[打开/开启][空调]];
2、“<>”或”[]”必须成对出现;
3、一个句型或句式中有且仅允许一对“<>”,且在句子的开始;
4、规定取每个”[]”中的第一个词作为输出;
5、“!”为英文格式(支持中文),被“!”标记的词须独自占一行,且最多一个“!”;
6、最大泛化行数不超过500行;
7、一个泛化句型中,”[]”中的基础词以2-3个字为主,4个字辅,最多支持5个字;
8、一个泛化句型中,如果有组合,则组合后的命令词字数长度不超过12个,如果无组合,命令词字数长度不超过12个;
9、对同一语义的枚举,命令词长度为2的单独归到一个句型中,命令词长度为3的单独归到一个句型中,这是保证识别效果最关键的一步;
10、4个字以上的命令词可以再一个句型中出现,根据实际效果可调整;
11、尽量保证一个句子中命令词的字符相同或相近;
2.3、命令词播报词协议列表V3_英文模板¶
英文命令词 |
---|
1、建议由2-4个单词(4-6个音节)组成,过短容误识高,过长不便用户记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“HI、HELLO” |
5、避免使用相似音节,词的发音清晰响度要大,如避免同时使用TURN-ON和TURN-OFF |
6、应避免使用叠词,如:“HELLO-HELLO” |
7、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
8、英文命令词中只能由纯英文组成,且所有单词全部大写,不允许有空格、逗号等其他字符 |
9、如果一个命令词由多个单词组成,那么单词与单词之间用中横线连接,如:HELLO-AIR |
10、命令词中的阿拉伯数字需要以英文表示,如“UP-ONE-DEGREES”、“THIRTY-DEGREES” |
语义标签 |
---|
1、语义标签用于标记同一语义的命令词 |
2、相同语义的命令词,语义标签一样,如:“TURN-ON-THE-LIGHT”、“SWITCH-ON-THE-LIGHT”的语义标签必须相同 |
3、语义标签为正整数,取值范围为:1~65535 |
4、相同语义命令词的播报语句内容可以一样,也可以不一样。播报语句内容一样时,平台会自动根据播报音内容进行去重;播报语句不一样时,当识别到该语义的任何一个命令词时,系统进行随机播报 |
5、相同语义命令词的发送协议和接收协议必须一样。如果存在不一样,平台自动进行提示 |
命令词类型 |
---|
1、命令词有三种类型:唤醒词、命令词、负性词。唤醒词用于唤醒语音系统,如“HELLO-JENNY”;命令词即语音指令词,如“TURN-ON-THE-LIGHT”;负性词用于降低非命令词语音的误识别,如,当在噪声条件下说“TURN-ON-TELEVISION”时,有概率触发“TURN-ON-THE-LIGHT”的指令,但“TURN-ON-TELEVISION”非命令词指令,此时,可将“TURN-ON-TELEVISION”标记为负性词加入,以降低“打开空调”的误识别 |
2、播报语句有三种类型:播报语、欢迎语、休息语。播报语仅用于播报,当语音模组接收到指定播报内容的串口协议时进行播报;欢迎语用于上电播报,提示系统上电成功;休息语是指语音系统从已唤醒的转台切换到非唤醒的状态进行提示的播报 |
3、当播报语的类型标记为“欢迎语”时,其对应的命令词可用“WELCOME”进行占位;当播报语的类型标记为“休息语”时,其对应的命令词可用“BYE”进行占位 |
英文播报语句 |
---|
1、播报语句为播报的文本内容,一般为10个单词以内,语句过长会导致体验下降 |
2、播报语句的所有单词字母均为小写,单词之间用空格分隔 |
3、播报语句间隔可以用逗号隔开,例如“yes,I am here” |
4、标点符号作用只有间隔作用,无法达到语气效果 |
5、“+”用于表示一条播报音被分成前后两段音频组合而成。例如:“The air conditioning has been+turned on”、“The air conditioning has been+set to cooling” 其中,“+”添加到句子中明显停顿的地方(如逗号、句号等处),合成的音频效果更为自然。注意:每个命令词最多支持15段音频组合 |
播报模式 |
---|
1、播报模式分为两种:主动播报和被动播报 |
2、主动播报是指:语音系统识别到某个命令词时,播报对应的播报语句 |
3、被动播报是指:语音系统识别到某个命令词时,不进行任何播报;只有当接收到指定协议时才进行对应播报语句的播报 |
发送协议 |
---|
发送协议是指:语音系统识别到某个命令词时,通过通信串口将该命令词对应的协议发送给上位机 |
接收协议 |
---|
接收协议是指:语音系统通过串口接收某条协议时,系统播报协议对应的播报语句或处理协议对应的功能 |
其他隐藏功能 |
---|
1、如果命令词中存在音量控制相关的命令词,系统会自动实现对应的功能。如,命令词中存在“VOLUME-UP”或“VOLUME-DOWN”,当语音系统处于唤醒状态下并且识别到“VOLUME-UP”或“VOLUME-DOWN”时,语音系统会自动修改播报音量 |
2、如果某个命令词的识别不够灵敏,可在页面上更改该命令词的置信度阈值提高其识别灵敏度(非自动优化模式);也可以增加同一语义的命令词以提高其识别泛化性 |
3、语言模型开发¶
3.1、命令词列表_中文模板¶
中文命令词 |
---|
1、一般为4-6个字,4个字最佳,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词中相邻汉字的声韵母区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“吃饭啦” |
5、生僻字和零声母字应尽量避免,如“语音识别”中“语音”两个字均为零声母字 |
6、命令词中的字最好不要有语气词,如“啊”、“呢”等 |
7、应避免使用叠词,如:“你好你好” |
8、中文命令词中只能由纯汉字组成,不允许有空格、逗号等其他字符 |
9、命令词中的数字需要以汉字表示,如“调高一度”、“二十六度” |
10、若您还未确定命令词,建议您从平台的“命令词推荐”中选择。 命令词推荐|唤醒词推荐 |
3.2、命令词列表_自然说_中文模板¶
3.2.1、中文命令词
1、一般为4-6个字,4个字最佳,过短容误识高,过长不便用户呼叫和记忆;
2、命令词中相邻汉字的声韵母区分度越大越好;
3、符合用户的语言习惯,是常用的说法,内容具体直接;
4、应避免使用日常用语,如:“吃饭啦”;
5、生僻字和零声母字应尽量避免,如“语音识别”中“语音”两个字均为零声母字;
6、命令词中的字最好不要有语气词,如“啊”、“呢”等;
7、应避免使用叠词,如:“你好你好”;
8、中文命令词中只能由纯汉字组成,不允许有空格,逗号等其他字符;
9、命令词中的数字需要以汉字表示,如“调高一度”、“二十六度”;
10、若您还未确定命令词,建议您从平台的“命令词推荐”中选择;命令词推荐|唤醒词推荐。
3.2.2、上传表格填写说明
上传表格示例如下:
1、语义标签:从1开始,依次增加,每个语义对应一个唯一的标签(数字);
2、最小功能词:表示一个最小的功能语义,用户在页面上可根据产品进行查询有哪些推荐的最小功能词;
3、功能泛化词:对最最小功能词的不同说法进行泛化,可以不填写,也可用填写。
不填写时:如果最小功能词在库中,则会将库中的所有泛化词加入到模型中,否则不做处理;
填写时:如果最小功能词在库中,则会将库中的所有泛化词和表格中的泛化词合并去重后加入到模型中,否则以当前表格中的泛化词作为命令词;
泛化词填写时,每个返回句型或句式占一行,填写规则稍后再详细阐述;
4、命令词类型:分为唤醒词、命令词和负性词,每行都须填写;
5、语义标签、最小功能词只需填写一行,且两个字段必须填写;从上往下,在遇到新的语义标签之前,所有的泛化词都属于该语义标签和最小功能词;
6、唤醒词不能进行泛化,即使填写,后台也不会加入语言模型中。
备注
所上传的表格样例可在“语音AI平台”的“语言模型开发”功能中找到“附件样例”点击即可进行下载,如下图:
3.2.3、泛化词填写说明及规则
为了用较少的基础词汇枚举出更多的泛化命令词以及减少命令词在cmd_info表格([60000]{cmd_info}.xlsx)中的输出,故制定了一套规则,使用时需根据不同的句型或句式按规则进行枚举。
1、规则符号种类:包括“/”、“[]”、“<>”、“!”四种基本符号,他们之间可以按照一定规则进行组合使用。
2、“/”符号:表示或的关系,常与“[]”组合使用,如:关闭/关掉/关一下/关下;再如:大声点/大点声/调大音量。
3、“[]”符号:用于基础词间的组合,达到以最小的基础词表示最多的命令词,规定取括号中的第一个作为输出;可与“/”,“<>”组合使用。
- 单个“[]”使用,如:[调大音量],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
调大音量 | 调大音量 |
- 再如:[打开风扇/吹一下风],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
打开风扇 | 打开风扇 |
吹一下风 | 打开风扇 |
- 多个“[]”一起使用,[定时][两小时][三十分],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
定时两小时三十分 | 定时两小时三十分 |
- 与“/”配合使用,如:[定时/计时][两小时/二小时],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
定时两小时 | 定时两小时 |
定时二小时 | 定时两小时 |
计时两小时 | 定时两小时 |
计时二小时 | 定时两小时 |
- 再如:[定时][两小时/二小时],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
定时两小时 | 定时两小时 |
定时二小时 | 定时两小时 |
- “<>”符号,表示前缀,常加在“[]”符号最前面,用于输入,不做输出,一个句型或句式中有且仅允许一对“<>”,且必须在句子的最前面,如:<请/帮我>[打开/开下][风扇/电风扇],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
请打开风扇 | 打开风扇 |
请开下风扇 | 打开风扇 |
请打开电风扇 | 打开风扇 |
请开下电风扇 | 打开风扇 |
帮我打开风扇 | 打开风扇 |
帮我开下风扇 | 打开风扇 |
帮我打开电风扇 | 打开风扇 |
帮我开下电风扇 | 打开风扇 |
再如:<请/帮我/>[打开/开下][风扇/电风扇],将其展开后如下:
命令词 | cmd_info输出 |
---|---|
请打开风扇 | 打开风扇 |
请开下风扇 | 打开风扇 |
请打开电风扇 | 打开风扇 |
请开下电风扇 | 打开风扇 |
帮我打开风扇 | 打开风扇 |
帮我开下风扇 | 打开风扇 |
帮我打开电风扇 | 打开风扇 |
帮我开下电风扇 | 打开风扇 |
打开风扇 | 打开风扇 |
开下风扇 | 打开风扇 |
打开电风扇 | 打开风扇 |
开下电风扇 | 打开风扇 |
- “!”符号:表示被标记词的输入输出在分词文件和cmdinfo表格中需要单独进行处理,每个词占一行,如:开机!
命令词 | cmd_info输出 |
---|---|
开机 | 开机 |
- “/”特殊应用,如果返回句型中仅有“/”符号时,那么其中的命令词会按字数进行分类并输出第一个,如:大声点/大点声/调大音量,将其展开后如下:
命令词 | cmd_info输出 |
---|---|
大声点 | 大声点 |
大点声 | 大声点 |
调大音量 | 调大音量 |
- 斜杠“/”在尖括号“<>”中的最后面出现,如:<请/帮我/我想/我要/>[关][风扇/轰扇/电扇/电风扇/循环扇],则表示如下两组说法同时生效;
<请/帮我/我想/我要>[关][风扇/轰扇/电扇/电风扇/循环扇]
[关][风扇/轰扇/电扇/电风扇/循环扇]
3.2.4、注意事项
1、“<>”、”[]”、“!”不能嵌套使用,如下格式不被允许:
<[打开/开启][空调]>;[[打开/开启][空调]];
2、“<>”或”[]”必须成对出现;
3、一个句型或句式中有且仅允许一对“<>”,且在句子的开始;
4、规定取每个”[]”中的第一个词作为输出;
5、“!”为英文格式(支持中文),被“!”标记的词须独自占一行,且最多一个“!”;
6、最大泛化行数不超过500行;
7、一个泛化句型中,”[]”中的基础词以2-3个字为主,4个字辅,最多支持5个字;
8、一个泛化句型中,如果有组合,则组合后的命令词字数长度不超过12个,如果无组合,命令词字数长度不超过12个;
9、对同一语义的枚举,命令词长度为2的单独归到一个句型中,命令词长度为3的单独归到一个句型中,这是保证识别效果最关键的一步;
10、4个字以上的命令词可以再一个句型中出现,根据实际效果可调整;
11、尽量保证一个句子中命令词的字符相同或相近;
3.3、命令词列表_英文模板¶
英文命令词 |
---|
1、建议由2-4个单词(4-6个音节)组成,过短容误识高,过长不便用户记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“HI、HELLO” |
5、避免使用相似音节,词的发音清晰响度要大,如避免同时使用TURN-ON和TURN-OFF |
6、应避免使用叠词,如:“HELLO-HELLO” |
7、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
8、英文命令词中只能由纯英文组成,且所有单词全部大写,不允许有空格、逗号等其他字符 |
9、如果一个命令词由多个单词组成,那么单词与单词之间用中横线连接,如:HELLO-AIR |
10、命令词中的阿拉伯数字需要以英文表示,如“UP-ONE-DEGREES”、“THIRTY-DEGREES” |
3.4、命令词列表_日文模板¶
日文命令词 |
---|
1、一条日语命令词建议由4-6个音节的日文组成,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“はい、おはよ” |
5、避免使用相似音节,词的发音清晰响度要大,如;下げて(sa ge te)、上げて(a ge te) |
6、应避免使用叠词,如:“ラボラボ” |
7、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
8、日文命令词中只能由纯日文组成,不允许有空格、逗号等其他字符 |
9、命令词中的阿拉伯数字需要以日文表示,如“摂氏いち度上げる”、“摂氏さんじゅう度” |
3.5、命令词列表_韩文模板¶
韩文命令词 |
---|
1、一条韩语命令词建议由4-6个音节的日文组成,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
5、韩文命令词中只能由纯韩文组成,不允许有空格、逗号等其他字符 |
6、词组之间用中衡线连接(中横线取代空格),例子:나나야-하이-나나 |
7、命令词中的阿拉伯数字需要以韩文表示,如“일도-상승”、“섭씨-삼십도” |
4、语言模型优化¶
4.1、命令词列表_中文模板¶
中文命令词 |
---|
1、一般为4-6个字,4个字最佳,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词中相邻汉字的声韵母区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“吃饭啦”; |
5、生僻字和零声母字应尽量避免,如“语音识别”中“语音”两个字均为零声母字; |
6、命令词中的字最好不要有语气词,如“啊”、“呢”等; |
7、应避免使用叠词,如:“你好你好” |
8、中文命令词中只能由纯汉字组成,不允许有空格、逗号等其他字符 |
9、命令词中的数字需要以汉字表示,如“调高一度”、“二十六度” |
10、若您还未确定命令词,建议您从平台的“命令词推荐”中选择。 命令词推荐|唤醒词推荐 |
4.2、命令词列表_英文模板¶
英文命令词 |
---|
1、建议由2-4个单词(4-6个音节)组成,过短容误识高,过长不便用户记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“HI、HELLO” |
5、避免使用相似音节,词的发音清晰响度要大,如避免同时使用TURN-ON和TURN-OFF |
6、应避免使用叠词,如:“HELLO-HELLO” |
7、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
8、英文命令词中只能由纯英文组成,且所有单词全部大写,不允许有空格、逗号等其他字符 |
9、如果一个命令词由多个单词组成,那么单词与单词之间用中横线连接,如:HELLO-AIR |
10、命令词中的阿拉伯数字需要以英文表示,如“UP-ONE-DEGREES”、“THIRTY-DEGREES” |
4.3、命令词列表_日文模板¶
日文命令词 |
---|
1、一条日语命令词建议由4-6个音节的日文组成,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、应避免使用日常用语,如:“はい、おはよ” |
5、避免使用相似音节,词的发音清晰响度要大,如;下げて(sa ge te)、上げて(a ge te) |
6、应避免使用叠词,如:“ラボラボ” |
7、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
8、日文命令词中只能由纯日文组成,不允许有空格、逗号等其他字符 |
9、命令词中的阿拉伯数字需要以日文表示,如“摂氏いち度上げる”、“摂氏さんじゅう度” |
4.4、命令词列表_韩文模板¶
韩文命令词 |
---|
1、一条韩语命令词建议由4-6个音节的日文组成,过短容误识高,过长不便用户呼叫和记忆 |
2、命令词间音节区分度越大越好 |
3、符合用户的语言习惯,是常用的说法,内容具体直接 |
4、负性词是生活中高频次发生并且容易诱发唤醒词或命令词误识别的词,用于针对性防误识别和误唤醒 |
5、韩文命令词中只能由纯韩文组成,不允许有空格、逗号等其他字符 |
6、词组之间用中衡线连接(中横线取代空格),例子:나나야-하이-나나 |
7、命令词中的阿拉伯数字需要以韩文表示,如“일도-상승”、“섭씨-삼십도” |
5、播报音合成¶
5.1、播报词列表_中文模板¶
中文播报音 |
---|
1、sheet(“语音合成”)中,第一列为音频序号,第二列为音频名,第三列为待合成音的文本 |
2、音频名不宜过长且不能包含空格,待合成文本不宜超过四十字 |
3、[=*]用于表示前一个汉字的指定拼音。 例如: 打开空调[=tiao2] 音调[=diao4]升高 其中,数字代表音调,支持1~5,5为轻声 |
4、[n*]用于表示为标记前的数字发音方式。 例如: 1300[n1] 1300[n2] 其中,n1指定为号码发音:一千三百;n2指定为数值发音:一三零零 |
5、音频名不能包含以下任何字符: \/:*?”<>| |
5.2、播报词列表_英文模板¶
英文播报音 |
---|
1、sheet(“语音合成”)中,第一列为音频序号,第二列为音频名,第三列为待合成音的文本 |
2、sheet(“语音合成”)中,第二列为音频名必须大写且单词间用中衡线连接,第三列全为小写,单词间用空格分隔 |
3、音频名不宜过长且不能包含空格,待合成文本不宜超过四十字 |
4、音频名不能包含以下任何字符: \/:*?”<>| |
5.3、播报词列表_日文模板¶
日文播报音 |
---|
1、sheet(“语音合成”)中,第一列为音频序号,第二列为音频名,第三列为待合成音的文本 |
2、音频名不宜过长且不能包含空格,待合成文本不宜超过四十字 |
3、音频名不能包含以下任何字符: \/:*?”<>| |