[01340235]基于词性分类统计的重复网页和近似网页的识别方法
交易价格:
面议
所属行业:
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,结束;如果是,则将出现次数最多的文本编号添加至类型倒排索引中,结束。本发明的算法步骤简单、实用性强,和现有传统算法相比,本发明算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点。
本发明公开了一种基于词性分类统计的重复网页和近似网页的识别方法,包括以下步骤:从网页文本中提取正文;切词;分类;统计词频;提取高频词;将高频词在词级倒排索引中查询,直到查询成功,记录下查询出来的对应文本编号,若查询不成功,则表示当前词性类别的集合为空;统计出现次数最多的文本编号及其次数;统计集合中不为空的集合个数;判断频率最高的文本次数是否大于或等于1,如果不是,则将高频词添加至词级倒排索引,结束;如果是,则将出现次数最多的文本编号添加至类型倒排索引中,结束。本发明的算法步骤简单、实用性强,和现有传统算法相比,本发明算法在准确率和召回率方面有明显的提升,其中召回率能够提升10-20个百分点。