技术详细介绍
科技大数据的深度挖掘对于掌握科技发展动态,让科技成果服务于国家安全、经济发展和人民生活,占领科技信息知识服务的技术制高点具有重要意义。然而IDC和Gartner等权威机构的分析报告指出目前大数据中仅3%的数据包含语义标注信息,语义缺失严重制约了大数据产业发展:同时目前通用搜索技术在科技情报信息方面的服务能力有限,国内专业的学术科技信息服务较少,亟待探究新的技术途径。在国家863、973等课题的支助下,本项目对此进行了系统性的技术攻关,取得了如下发明创新: 1)发明了高质量语义内容生成关键技术。项目在大规模异构网络资源中语义获取难题上取得重大突破,提出多维依赖关系的语义标注方法和基于最小风险的语义集成框架,将语义内容生成的精度提高10%,在语义集成国际竞赛OAEI上6年取得13项子任务第一,建立了亿级节点规模的科技知识图谱。 2) 发明了面向异构科技情报网络的深度挖掘方法,提出了隐含语义提取的概念,自动挖掘网络实体的隐含语义和实体之间的隐含关联语义及影响力。在腾讯在线社交网络系统中利用挖掘得到的关联语义和影响力实现了高达196%的推荐精度提升和5~10%的推荐收入提升。发表在SIGKDD 2009的论文引用次数在该会当年至今发表的所有论文(共1310篇)中排名第5。 3)发明了以知识和科研人员为中心的语义搜索和智能服务关键技术。针对知识网络中异构对象排序难的问题,提出了对科技信息网络中科研人员、学术活动和知识概念进行隐含语义建模的概率图模型,实现了异构对象全局权威度的高效计算,成果应用于搜狗公司建立常用搜索同义词库、实现基于社交关系的搜索等核心产品,取得显著经济效益。 4)研发了以知识和科研人员为中心的科技情报大数据挖掘与服务平台AMiner,建立了具有完全自主知识产权的新一代科技情报分析与挖掘系统,建立了超过1亿学术论文、专利和1.36亿科研人员的科技智库,提供面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务。 项目获得发明专利授权30项:发表高水平学术论文337篇,其中顶级期刊和会议(CCF A类)60篇,编著英文论著两部,论文Google Scholar引用8057次,SCI引用921次。 项目成果为全球220个国家和地区700多万独立IP用户提供科技知识分析服务:为全球最大学术期刊出版社Elsevier,以及KDD、ICDM等20余个重要国际会议提供审稿人推荐及语义信息服务:建成中国工程院科技知识中心“学术活动专业知识服务系统”,国家自然科学基金委“评议人计算机辅助指派系统”:核心技术应用于搜狗、点通、腾讯等单位的产品中,近三年新增销售额4.9亿元。 项目打破了国外垄断,探索出了一条面向异构科技情报网络的深度挖掘和服务的新途径,建成了具有完全自主知识产权的新一代科技情报分析与挖掘系统,提升了我国相关行业领域的自主创新和竞争能力,应用前景广阔。
科技大数据的深度挖掘对于掌握科技发展动态,让科技成果服务于国家安全、经济发展和人民生活,占领科技信息知识服务的技术制高点具有重要意义。然而IDC和Gartner等权威机构的分析报告指出目前大数据中仅3%的数据包含语义标注信息,语义缺失严重制约了大数据产业发展:同时目前通用搜索技术在科技情报信息方面的服务能力有限,国内专业的学术科技信息服务较少,亟待探究新的技术途径。在国家863、973等课题的支助下,本项目对此进行了系统性的技术攻关,取得了如下发明创新: 1)发明了高质量语义内容生成关键技术。项目在大规模异构网络资源中语义获取难题上取得重大突破,提出多维依赖关系的语义标注方法和基于最小风险的语义集成框架,将语义内容生成的精度提高10%,在语义集成国际竞赛OAEI上6年取得13项子任务第一,建立了亿级节点规模的科技知识图谱。 2) 发明了面向异构科技情报网络的深度挖掘方法,提出了隐含语义提取的概念,自动挖掘网络实体的隐含语义和实体之间的隐含关联语义及影响力。在腾讯在线社交网络系统中利用挖掘得到的关联语义和影响力实现了高达196%的推荐精度提升和5~10%的推荐收入提升。发表在SIGKDD 2009的论文引用次数在该会当年至今发表的所有论文(共1310篇)中排名第5。 3)发明了以知识和科研人员为中心的语义搜索和智能服务关键技术。针对知识网络中异构对象排序难的问题,提出了对科技信息网络中科研人员、学术活动和知识概念进行隐含语义建模的概率图模型,实现了异构对象全局权威度的高效计算,成果应用于搜狗公司建立常用搜索同义词库、实现基于社交关系的搜索等核心产品,取得显著经济效益。 4)研发了以知识和科研人员为中心的科技情报大数据挖掘与服务平台AMiner,建立了具有完全自主知识产权的新一代科技情报分析与挖掘系统,建立了超过1亿学术论文、专利和1.36亿科研人员的科技智库,提供面向科技文献、专利和科技新闻的语义搜索、语义分析、成果评价等知识服务。 项目获得发明专利授权30项:发表高水平学术论文337篇,其中顶级期刊和会议(CCF A类)60篇,编著英文论著两部,论文Google Scholar引用8057次,SCI引用921次。 项目成果为全球220个国家和地区700多万独立IP用户提供科技知识分析服务:为全球最大学术期刊出版社Elsevier,以及KDD、ICDM等20余个重要国际会议提供审稿人推荐及语义信息服务:建成中国工程院科技知识中心“学术活动专业知识服务系统”,国家自然科学基金委“评议人计算机辅助指派系统”:核心技术应用于搜狗、点通、腾讯等单位的产品中,近三年新增销售额4.9亿元。 项目打破了国外垄断,探索出了一条面向异构科技情报网络的深度挖掘和服务的新途径,建成了具有完全自主知识产权的新一代科技情报分析与挖掘系统,提升了我国相关行业领域的自主创新和竞争能力,应用前景广阔。