[01821810]基于语义的Web页面信息自动获取关键技术研究
交易价格:
面议
所属行业:
智能交通
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
该课题实现了一个面向主题的网页爬行器,用以下载并收集有关网页信息;提出了一种基于TBL的中文名实体识别方法,实验表明这种改进的基于TBL的后处理技术极大地提高了中文名实体识别的识别效果,可自动学习并且不会过拟合;提出了一种基于内聚度的多文档文摘的句子排序方法,实验结果表明该方法能够较好的改善文摘的可读性;根据Web页面信息的特点,对向量空间模型的表示和相似度的计算进行了改进,提出了一种应用于Web页面中的热门话题检测与排序方法,实验结果显示此方法取得了较好的结果;提出了一种面向文件检索的高效处理方法,该方法仅通过两次迭代归并,即能建立海量倒排表,通过分析关键字段特征实现相关性排序。
该课题实现了一个面向主题的网页爬行器,用以下载并收集有关网页信息;提出了一种基于TBL的中文名实体识别方法,实验表明这种改进的基于TBL的后处理技术极大地提高了中文名实体识别的识别效果,可自动学习并且不会过拟合;提出了一种基于内聚度的多文档文摘的句子排序方法,实验结果表明该方法能够较好的改善文摘的可读性;根据Web页面信息的特点,对向量空间模型的表示和相似度的计算进行了改进,提出了一种应用于Web页面中的热门话题检测与排序方法,实验结果显示此方法取得了较好的结果;提出了一种面向文件检索的高效处理方法,该方法仅通过两次迭代归并,即能建立海量倒排表,通过分析关键字段特征实现相关性排序。