[00944358]代价敏感的邮件自动过滤系统的研制
交易价格:
面议
所属行业:
软件
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
任务来源:“代价敏感的邮件自动过滤系统的研制”是河北省科学技术研究与发展计划项目,项目编号为:07213507D。应用领域及技术原理等:大多数邮件客户端系统都具有基于规则的过滤功能,但由于规则需要手动配置,再加上规则具有时效性,使这一方法并不实用。为此,人们将眼光转向了基于机器学习的自动过滤方法的研究。研究人员将垃圾邮件过滤看成一个2类分类问题:垃圾邮件类和合法邮件类。因此,各种文本分类方法可以用于垃圾邮件的过滤。然而,垃圾邮件的过滤不同于普通的文本分类方法,体现在:1)它是一个代价敏感的分类问题,即将正常邮件错判为垃圾与相反错误的代价不同;2)代价因子的改变,会对分类精度产生不同的要求;3)实时性要求较高;4)邮件是半结构化的文本。从而,将文本分类算法直接应用于过滤垃圾邮件显然效果不十分理想。该项目围绕开发实用性强的过滤算法及相应软件这一关键问题进行研究。其最终目的是为了面向Outlook开发一个效果理想、具有自动过滤功能的,融合多种同构或异构过滤算法的代价敏感的邮件自动过滤系统。该系统可以安装于Outlook2000以上的版本中,为工作于各行业的电子邮件用户提供客户端的过滤功能。系统的应用领域广泛。系统中采用了11种过滤器:7种个体过滤器、4种集成过滤器(基于课题组提出的两阶段集成过滤算法和多阶段代价敏感集成过滤算法)。两阶段集成过滤是多阶段代价敏感集成过滤的一种特殊形式。多阶段代价敏感学习把学习分为多个阶段,阶段从前一个阶段的基本过滤器的“知识”中进行学习。在每一个阶段都可以引入代价敏感的技术。性能指标:合同书中的设计目标主要有:误拒率低(2%以内)、误收率低(10%以内)、正确率高(95%以上)、召回率高(95%以上)、对运行参数的敏感度低、运行速度快(每秒处理3封以上邮件)。课题组设计的系统在上述指标上全部达到或超过设计预期目标。与国内外同类技术的比较、成果的创造性、先进性:项目组开发研究了有很强实用性,具有较低的误拒率和误收率的过滤算法。研究了新的代价敏感的过滤算法评价指标,通过这一指标对客观地评价已有的过滤算法的好坏提供依据。研制了运行于Outlook的垃圾邮件过滤器,从而使因特网上大多数使用Outlook收发邮件的用户,通过安装该过滤器即可进行垃圾邮件过滤。上述成果均属国内首次提出或运用,研究成果具有明显的创新性和领先性。课题组委托河北省科学技术情报研究院(国家一级科技查新咨询单位)对该课题的研究成果进行了国内外查新,查新结果的主要结论:在国内外文献中未见相同报道。可见,该课题成果具有较强的先进性和创新性。
任务来源:“代价敏感的邮件自动过滤系统的研制”是河北省科学技术研究与发展计划项目,项目编号为:07213507D。应用领域及技术原理等:大多数邮件客户端系统都具有基于规则的过滤功能,但由于规则需要手动配置,再加上规则具有时效性,使这一方法并不实用。为此,人们将眼光转向了基于机器学习的自动过滤方法的研究。研究人员将垃圾邮件过滤看成一个2类分类问题:垃圾邮件类和合法邮件类。因此,各种文本分类方法可以用于垃圾邮件的过滤。然而,垃圾邮件的过滤不同于普通的文本分类方法,体现在:1)它是一个代价敏感的分类问题,即将正常邮件错判为垃圾与相反错误的代价不同;2)代价因子的改变,会对分类精度产生不同的要求;3)实时性要求较高;4)邮件是半结构化的文本。从而,将文本分类算法直接应用于过滤垃圾邮件显然效果不十分理想。该项目围绕开发实用性强的过滤算法及相应软件这一关键问题进行研究。其最终目的是为了面向Outlook开发一个效果理想、具有自动过滤功能的,融合多种同构或异构过滤算法的代价敏感的邮件自动过滤系统。该系统可以安装于Outlook2000以上的版本中,为工作于各行业的电子邮件用户提供客户端的过滤功能。系统的应用领域广泛。系统中采用了11种过滤器:7种个体过滤器、4种集成过滤器(基于课题组提出的两阶段集成过滤算法和多阶段代价敏感集成过滤算法)。两阶段集成过滤是多阶段代价敏感集成过滤的一种特殊形式。多阶段代价敏感学习把学习分为多个阶段,阶段从前一个阶段的基本过滤器的“知识”中进行学习。在每一个阶段都可以引入代价敏感的技术。性能指标:合同书中的设计目标主要有:误拒率低(2%以内)、误收率低(10%以内)、正确率高(95%以上)、召回率高(95%以上)、对运行参数的敏感度低、运行速度快(每秒处理3封以上邮件)。课题组设计的系统在上述指标上全部达到或超过设计预期目标。与国内外同类技术的比较、成果的创造性、先进性:项目组开发研究了有很强实用性,具有较低的误拒率和误收率的过滤算法。研究了新的代价敏感的过滤算法评价指标,通过这一指标对客观地评价已有的过滤算法的好坏提供依据。研制了运行于Outlook的垃圾邮件过滤器,从而使因特网上大多数使用Outlook收发邮件的用户,通过安装该过滤器即可进行垃圾邮件过滤。上述成果均属国内首次提出或运用,研究成果具有明显的创新性和领先性。课题组委托河北省科学技术情报研究院(国家一级科技查新咨询单位)对该课题的研究成果进行了国内外查新,查新结果的主要结论:在国内外文献中未见相同报道。可见,该课题成果具有较强的先进性和创新性。