技术详细介绍
1)课题来源与背景; 近年来互联网环境迅速发展的背景下,许多行业领域每天都会产生海量的大数据,他们通常以多维时间序列“数据流”的形式产生和到达。多维时间序列数据往往具有不同维度数据的来源不同、采样频率不同、数据属性、取值范围不同等特点,这些特点导致许多经典机器学习算法及时间序列数据挖掘算法较难直接应用于多维时序大数据知识发现。如何在有序、快速变化的多维时序大数据中有效地进行数据建模和智能辅助决策,已经成为智慧工业、智慧城市等机器学习应用领域的热点应用问题。 2)研究的目的与意义 为了针对多维时间序列数据挖掘问题,能够有效融合经典时间序列数据挖掘算法与机器学习算法进行多维时序大数据挖掘。本团队在权威中文核心期刊(EI收录)交通运输工程与信息杂志2016,v16(04)发表的《多机器学习竞争策略的短时交通流预测》论文中提出了一种新型的面向多维时序大数据的多机器学习计算框架(本论文的发表还获得国家自然科学基金项目61273304的资助)。并且在交通预测应用领域进行了实验,验证了该计算框架是有效可行的。该方法为多维时序大数据挖掘问题提出了一种能够有效的融合时间序列数据挖掘提供了一种新型的解决方案,具有广泛的应用前景。 3)本算法框架的主要方法介绍(主要论点): 首先对多维时序大数据进行数据建模,将被研究对象的多维度时间序列流数据转换为多维时间序列矩阵数据模型。然后用时间序列聚类方法对其每个时间序列分别进行时序聚类,将多维时间序列矩阵模型降维转变为经典二维信息表。然后将二维信息表导入多机器学习群进行学习,学习完后的知识通过测试竞争,从而产生多个最优关联算法模型。将实践数据导入最优算法模型并输出多个分析或者预测结果。最后对多个分析或者预测结果进行集成并进行效果评估,如果实际结果不佳,则更新训练数据集,重新进行反馈学习与训练。 本算法框架能够根据实际预测结果不断动态变化而调整模型最优算法的选择,最终能够有效的进行智能决策任务。 本算法框架可分为四个步骤模块。 模块一:抽取临近历史数据组成训练数据集,将数据集转换多维时序矩阵模型DB矩阵形式,然后使用时间序列聚类方法对上述矩阵模型DB进行时序聚类,将矩阵模型DB降维转变为经典二维信息表ISDB。 模块二:将二维信息表ISDB导入多种经典机器学习方法,通过决策效果竞争策略获得最优模式。 模块三:待预测的多维时序流数据进行相应数据预处理后,利用第二步骤得到的最优模式进行决策应用。 模块四 :设置预测反馈机制。当预测结果与实际效果差距过大(可以事先设定域值),则反馈到模块一,否则模型正常实施。 在第一个步骤中,首先对原始数据序列原始数据集进行转置数据预处理以及缺失值填充处理后,生成多维时间序列训练数据集预测矩阵模型。对于模型中每列数据通过执行时间序列聚类操作,将多维时序流数据中的每个时间序列都用一个类别数据替代。这样多维时序矩阵模型被转变成为经典二维信息表。 第二个步骤中,首先将步骤一获得的二维信息表被划分为训练数据集和测试数据集合。采用经典的机器学习方法应用于训练数据集合,不同的方法可以得到不同的决策(分类、聚类、关联分析等)知识。测试数据集合被应用于这些知识的检测评估后可以获得本道路最优的机器学习方法和多个最优的决策知识。 第三、四步骤中对新的待预测多维时序流数据进行阶段一的聚类处理后得到一个新的二维信息表,用前面得到的多个最优分类器进行集成学习并预测,对预测结果进行评价。按照预测结果将多个最优算法进行分组,分别统计组内算法的平均准确性及方差大小。组内平均预测准确性之和大的作为此次最终决策输出结果,如果组内准确性相等,则比较组内方差,方差小的组内决策结果作为此次最终决策输出。同时,将输出的结果与实际情况相比较分析,如果预测误差过大,则用最近交通数据更新训练数据集,重新训练最优算法模型。 4)创见与创新及社会经济效益 理论创新:该成果提供了一种新型计算方法。 该计算方法首先提供时间序列聚类将多维时序数据的动态特性转换为二位特征矩阵,然后选用经典机器学习的集成方法进行知识发现。该方法为多维时序数据提供了一种语义明确的计算思路,该计算方法具有较好的扩展性与适应性。能够为多维时序大数据特征的电力、交通、气象等工业大数据挖掘工作。 社会经济效益: 目前该成果相关论文已经被多个行业研究论文引用,并且已经有合作企业应用该项成果,取得了较好的社会经济效益。
1)课题来源与背景; 近年来互联网环境迅速发展的背景下,许多行业领域每天都会产生海量的大数据,他们通常以多维时间序列“数据流”的形式产生和到达。多维时间序列数据往往具有不同维度数据的来源不同、采样频率不同、数据属性、取值范围不同等特点,这些特点导致许多经典机器学习算法及时间序列数据挖掘算法较难直接应用于多维时序大数据知识发现。如何在有序、快速变化的多维时序大数据中有效地进行数据建模和智能辅助决策,已经成为智慧工业、智慧城市等机器学习应用领域的热点应用问题。 2)研究的目的与意义 为了针对多维时间序列数据挖掘问题,能够有效融合经典时间序列数据挖掘算法与机器学习算法进行多维时序大数据挖掘。本团队在权威中文核心期刊(EI收录)交通运输工程与信息杂志2016,v16(04)发表的《多机器学习竞争策略的短时交通流预测》论文中提出了一种新型的面向多维时序大数据的多机器学习计算框架(本论文的发表还获得国家自然科学基金项目61273304的资助)。并且在交通预测应用领域进行了实验,验证了该计算框架是有效可行的。该方法为多维时序大数据挖掘问题提出了一种能够有效的融合时间序列数据挖掘提供了一种新型的解决方案,具有广泛的应用前景。 3)本算法框架的主要方法介绍(主要论点): 首先对多维时序大数据进行数据建模,将被研究对象的多维度时间序列流数据转换为多维时间序列矩阵数据模型。然后用时间序列聚类方法对其每个时间序列分别进行时序聚类,将多维时间序列矩阵模型降维转变为经典二维信息表。然后将二维信息表导入多机器学习群进行学习,学习完后的知识通过测试竞争,从而产生多个最优关联算法模型。将实践数据导入最优算法模型并输出多个分析或者预测结果。最后对多个分析或者预测结果进行集成并进行效果评估,如果实际结果不佳,则更新训练数据集,重新进行反馈学习与训练。 本算法框架能够根据实际预测结果不断动态变化而调整模型最优算法的选择,最终能够有效的进行智能决策任务。 本算法框架可分为四个步骤模块。 模块一:抽取临近历史数据组成训练数据集,将数据集转换多维时序矩阵模型DB矩阵形式,然后使用时间序列聚类方法对上述矩阵模型DB进行时序聚类,将矩阵模型DB降维转变为经典二维信息表ISDB。 模块二:将二维信息表ISDB导入多种经典机器学习方法,通过决策效果竞争策略获得最优模式。 模块三:待预测的多维时序流数据进行相应数据预处理后,利用第二步骤得到的最优模式进行决策应用。 模块四 :设置预测反馈机制。当预测结果与实际效果差距过大(可以事先设定域值),则反馈到模块一,否则模型正常实施。 在第一个步骤中,首先对原始数据序列原始数据集进行转置数据预处理以及缺失值填充处理后,生成多维时间序列训练数据集预测矩阵模型。对于模型中每列数据通过执行时间序列聚类操作,将多维时序流数据中的每个时间序列都用一个类别数据替代。这样多维时序矩阵模型被转变成为经典二维信息表。 第二个步骤中,首先将步骤一获得的二维信息表被划分为训练数据集和测试数据集合。采用经典的机器学习方法应用于训练数据集合,不同的方法可以得到不同的决策(分类、聚类、关联分析等)知识。测试数据集合被应用于这些知识的检测评估后可以获得本道路最优的机器学习方法和多个最优的决策知识。 第三、四步骤中对新的待预测多维时序流数据进行阶段一的聚类处理后得到一个新的二维信息表,用前面得到的多个最优分类器进行集成学习并预测,对预测结果进行评价。按照预测结果将多个最优算法进行分组,分别统计组内算法的平均准确性及方差大小。组内平均预测准确性之和大的作为此次最终决策输出结果,如果组内准确性相等,则比较组内方差,方差小的组内决策结果作为此次最终决策输出。同时,将输出的结果与实际情况相比较分析,如果预测误差过大,则用最近交通数据更新训练数据集,重新训练最优算法模型。 4)创见与创新及社会经济效益 理论创新:该成果提供了一种新型计算方法。 该计算方法首先提供时间序列聚类将多维时序数据的动态特性转换为二位特征矩阵,然后选用经典机器学习的集成方法进行知识发现。该方法为多维时序数据提供了一种语义明确的计算思路,该计算方法具有较好的扩展性与适应性。能够为多维时序大数据特征的电力、交通、气象等工业大数据挖掘工作。 社会经济效益: 目前该成果相关论文已经被多个行业研究论文引用,并且已经有合作企业应用该项成果,取得了较好的社会经济效益。