[00336415]网页信息块提取方法和装置
交易价格:
面议
所属行业:
分析仪器
类型:
发明专利
技术成熟度:
通过小试
专利所属地:中国
专利号:CN200410057064.1
交易方式:
资料待完善
联系人:
南京大学
进入空间
所在地:江苏南京市
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
本发明提出了一种网页信息块提取装置和方法。在本发明中,首先生成网页的结构信息块树,并对结构信息块进行分类归并和合并,对结果块的语义进行标记,从而根据内容和功能把网页分割为信息块。特别地,结构层次的自动重复模式发现和语义层次的分类归并是实现本发明的方法和装置的基础和保证。根据本发明的方法和装置,网页处理的粒度从整个页面扩展为页面内的信息块,使网页更容易由机器处理。本发明的方法和装置可以应用于几乎所有类型的网页。
本发明提出了一种网页信息块提取装置和方法。在本发明中,首先生成网页的结构信息块树,并对结构信息块进行分类归并和合并,对结果块的语义进行标记,从而根据内容和功能把网页分割为信息块。特别地,结构层次的自动重复模式发现和语义层次的分类归并是实现本发明的方法和装置的基础和保证。根据本发明的方法和装置,网页处理的粒度从整个页面扩展为页面内的信息块,使网页更容易由机器处理。本发明的方法和装置可以应用于几乎所有类型的网页。