[01771609]基于信息抽取技术的搜索引擎
交易价格:
面议
所属行业:
智能交通
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
该搜索引擎利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则。应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量的获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。该成果将信息抽取技术与搜索引擎技术有机地结合在一起,是一种非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。
该搜索引擎利用机器学习的方法,对含有同类信息且布局基本一致的HTML页面样本集进行学习,从而得出对此类HTML页面进行信息抽取的规则。应用这些规则,结合一个特定领域的搜索引擎,对网络上的相关信息进行大量的获取,并从半自由的HTML文本中获取结构化的信息。通过训练和学习,调整规则数目和抽象程度,使其满足精度要求,然后基于学习提炼后的规则集对样本集以外的文本进行信息提取。对用搜索引擎获取的特定内容的页面,利用规则进行信息提取。该成果将信息抽取技术与搜索引擎技术有机地结合在一起,是一种非常有效、准确的信息获取工具,它能够较大范围地提高人们的工作效率。