[00901595]一种基于字典学习的氨基酸序列特征提取方法
交易价格:
面议
所属行业:
类型:
发明专利
技术成熟度:
通过小试
专利所属地:中国
专利号:CN202110143746.8
交易方式:
其他
联系人:
所在地:浙江杭州市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于字典学习的氨基酸序列特征提取方法。本发明首先给定一种AAindex,每条氨基酸肽序列数据都可用P=R-1R-2......R-L表示,通过给定的AAindex,可将上述序列编码成P-E=E-1E-2......E-L。其中E-i为氨基酸残基的R-i的属性值;接着,对肽序列使用n-gram模型分解成单词并分割成不同长度的片段,之后对同一长度的片段聚类生成字典;最后将样本基于欧氏距离的词频学习字典的特征构成样本特征矩阵。本发明能够有效的对氨基酸序列进行特征提取,实现降维,得到氨基酸中潜在的规律,特征选择的结果对样本类别判定具有重要意义,有效提高样本类别判定的准确率。
本发明公开了一种基于字典学习的氨基酸序列特征提取方法。本发明首先给定一种AAindex,每条氨基酸肽序列数据都可用P=R-1R-2......R-L表示,通过给定的AAindex,可将上述序列编码成P-E=E-1E-2......E-L。其中E-i为氨基酸残基的R-i的属性值;接着,对肽序列使用n-gram模型分解成单词并分割成不同长度的片段,之后对同一长度的片段聚类生成字典;最后将样本基于欧氏距离的词频学习字典的特征构成样本特征矩阵。本发明能够有效的对氨基酸序列进行特征提取,实现降维,得到氨基酸中潜在的规律,特征选择的结果对样本类别判定具有重要意义,有效提高样本类别判定的准确率。