[00901917]基于词性标注的中文环境语义槽填充增强方法
交易价格:
面议
所属行业:
类型:
发明专利
技术成熟度:
通过小试
专利所属地:中国
专利号:CN202011632166.7
交易方式:
其他
联系人:
所在地:浙江杭州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了基于词性标注的中文环境语义槽填充增强方法。现有方法缺少对词语序列模糊化的考虑,模型训练效率和槽填充准确度降低。本发明方法首先建立某确定任务域的专有词库,对其中的部分词作词性标注;然后对中文语句进行分词,获得以词语为基本元素的有限序列;将有限序列中特定的具有同一词性标注的词语改用同一符号代替,得到新的有限序列;最后,以新的有限序列集合及其标签序列集合作为输入,采用BLSTM-CRF网络训练模型。本发明方法对语料数据集中一部分词语按类别进行模糊化,降低了训练模型语料数据集规模的要求和模型训练时间成本,避免了特殊词语造成模型准确度降低。本发明方法进一步提高了语义槽填充模型的准确度。
本发明公开了基于词性标注的中文环境语义槽填充增强方法。现有方法缺少对词语序列模糊化的考虑,模型训练效率和槽填充准确度降低。本发明方法首先建立某确定任务域的专有词库,对其中的部分词作词性标注;然后对中文语句进行分词,获得以词语为基本元素的有限序列;将有限序列中特定的具有同一词性标注的词语改用同一符号代替,得到新的有限序列;最后,以新的有限序列集合及其标签序列集合作为输入,采用BLSTM-CRF网络训练模型。本发明方法对语料数据集中一部分词语按类别进行模糊化,降低了训练模型语料数据集规模的要求和模型训练时间成本,避免了特殊词语造成模型准确度降低。本发明方法进一步提高了语义槽填充模型的准确度。