[01193003]高并发海量实时数据聚类中间件
交易价格:
面议
所属行业:
其他电子信息
类型:
非专利
交易方式:
资料待完善
联系人:
所在地:
- 服务承诺
- 产权明晰
-
资料保密
对所交付的所有资料进行保密
- 如实描述
技术详细介绍
在高并行计算平台上,处理流数据的增量式聚类算法面临“精度-并行性两难困局”。本项目采用统计决策等方法在典型的高并行计算平台 GPGPU(通用计算图形处理器)上研究并行增量式聚类算法的精度与并行性之间的平衡问题。 抽象出现有增量式聚类算法的数学模型,并分别通过实验验证和理论分析指出各类模型的优势与不足,进而归纳出现有的增量式聚类算法采用的两种处理方式:逐个数据块处理方式和逐个数据点处理方式,从聚类精度和并行性上分析了两种处理方式的优劣。在理论分析的基础上,设计了参数化的、和非参数化的流数据聚类分析算法。首先,参数化算法采用贝叶斯信息准则等统计决策理论,设计了近似累计贝叶斯信息准则,以此预先近似估计当前全部已到来的流数据中包含簇的数量。以预估的簇数量作为约束条件,算法能够显著提高流数据聚类精度。其次,从算法的演进粒度入手寻求对策,从理论上证明了演进粒度与流数据聚类精度负相关。在此基础上设计了一种非参数化的、以演进粒度为中心的增量式聚类算法。该算法的核心思想在于:使算法的演进粒度小于逐个数据块处理方式而大于逐个数据点处理方式,以此达成了精度与并行性之间的平衡。此外,上述算法被封装为软件中间件,对用户屏蔽了底层并行代码的复杂性、增强了易用性。 本项目设计实现的算法及其中间件能够在计算机内存资源受限或响应时间受限的场景下实现流数据的快速聚类分析,可以为更高层次的数据挖掘应用提供信息和决策支持,可能的应用领域包括:流媒体处理、社交网络分析、网络入侵检测等。
在高并行计算平台上,处理流数据的增量式聚类算法面临“精度-并行性两难困局”。本项目采用统计决策等方法在典型的高并行计算平台 GPGPU(通用计算图形处理器)上研究并行增量式聚类算法的精度与并行性之间的平衡问题。 抽象出现有增量式聚类算法的数学模型,并分别通过实验验证和理论分析指出各类模型的优势与不足,进而归纳出现有的增量式聚类算法采用的两种处理方式:逐个数据块处理方式和逐个数据点处理方式,从聚类精度和并行性上分析了两种处理方式的优劣。在理论分析的基础上,设计了参数化的、和非参数化的流数据聚类分析算法。首先,参数化算法采用贝叶斯信息准则等统计决策理论,设计了近似累计贝叶斯信息准则,以此预先近似估计当前全部已到来的流数据中包含簇的数量。以预估的簇数量作为约束条件,算法能够显著提高流数据聚类精度。其次,从算法的演进粒度入手寻求对策,从理论上证明了演进粒度与流数据聚类精度负相关。在此基础上设计了一种非参数化的、以演进粒度为中心的增量式聚类算法。该算法的核心思想在于:使算法的演进粒度小于逐个数据块处理方式而大于逐个数据点处理方式,以此达成了精度与并行性之间的平衡。此外,上述算法被封装为软件中间件,对用户屏蔽了底层并行代码的复杂性、增强了易用性。 本项目设计实现的算法及其中间件能够在计算机内存资源受限或响应时间受限的场景下实现流数据的快速聚类分析,可以为更高层次的数据挖掘应用提供信息和决策支持,可能的应用领域包括:流媒体处理、社交网络分析、网络入侵检测等。