技术详细介绍
在后基因时代,生物信息、化学信息等学科领域对数据分析与处理的方法提出了新的挑战。机器学习是一种高级的数据分析与处理技术,主动学习是机器学习的一类重要方法。主动学习方法与其它机器学习方法的最大不同之处在于在学习过程中增加了控制策略,如控制用于训练的样本或特征数量。引入控制策略的主要目的减少样本标注和样本收集的开销。例如,在药物发现过程中,判断候选药物成份对特定的标靶蛋白质是否具有活性(即候选药物与标靶蛋白质是否存在相互作用),需要进行物化实验,需要耗费大量的人力和财力。采用主动学习的方法预测候选药物成份是否具有活性,一方面可以减少物化实验的开销,另一方面,可以充分利用已有的物化实验的结果。主动学习的过程与药物发现的过程相类似,通过迭代过程,主动学习不断提高性能,药物发现提高筛选的精度。因此,研究主动学习的理论和技术,并应用于药物发现过程具有现实的应用意义。 在基因药物发现过程中,候选药物和标靶蛋白质存在不同的表示方法。例如,化学家提出了基于结构、物化性质等的数十类不同的特征描述子描述药物分子;生物学家使用1D/2D/3D等不同的方法表征蛋白质的结构和特征。不同的表达方法近似对应于多视图(Multi-view)学习中的不同视图(view),可以用多视图学习的方法充分利用不同的特征表达形式。问题在于多视图学习理论中不同视图之间的独立性假设在此应用中往往是不成立的。因此,研究和探索多视图学习中不同视图之间相关性的假设条件对学习性能的影响具有理论和现实的应用意义。 在基因药物发现过程中,任务之一就是预测具有相似化学结构或物化特性等的候选药物对某个特定标靶蛋白质是否具有活性,不同的标靶蛋白质对应不同的标靶预测任务。同样亦可预测特定的候选药物对不同的标靶蛋白质是否具有活性等,这样不同的候选药物对应于不同的药物小分子预测任务。无论是标靶预测任务还是药物小分子预测任务中,往往不同任务之间存在相互作用和相互影响。多任务(Multi-task)学习为实现不同任务之间的信息共享提供一条路径。问题在于如何实现不同任务之间的信息共享;如何发现不同任务之间是正相关还是负相关;如何改进学习算法学习率以及如何高效地求解学习的优化问题。因此,研究和探索多任务(Multi-task)学习具有理论和应用价值。 本项目拟结合机器学习、计算机辅助药物设计、化学基因组学等学科,将多视图(Multi-view)学习、多任务(Multi-task)和主动学习结合,综合利用分子的多重属性,以及系统中存在的大量未标记数据,提高候选药物分子与蛋白质相互作用预测模型的学习精度和泛化能力。一方面,本项目开展基于多视图(Multi-view)学习、多任务(Multi-task)与主动学习结合的关键技术研究,能够丰富多视图(Multi-view)学习、多任务(Multi-task)和主动学习的理论;另一方面,本项目将相关理论成果应用于药物发现过程,能促进计算机辅助药物设计的应用,对生产和设计高效、低毒、安全的药物具有重要的应用价值。
在后基因时代,生物信息、化学信息等学科领域对数据分析与处理的方法提出了新的挑战。机器学习是一种高级的数据分析与处理技术,主动学习是机器学习的一类重要方法。主动学习方法与其它机器学习方法的最大不同之处在于在学习过程中增加了控制策略,如控制用于训练的样本或特征数量。引入控制策略的主要目的减少样本标注和样本收集的开销。例如,在药物发现过程中,判断候选药物成份对特定的标靶蛋白质是否具有活性(即候选药物与标靶蛋白质是否存在相互作用),需要进行物化实验,需要耗费大量的人力和财力。采用主动学习的方法预测候选药物成份是否具有活性,一方面可以减少物化实验的开销,另一方面,可以充分利用已有的物化实验的结果。主动学习的过程与药物发现的过程相类似,通过迭代过程,主动学习不断提高性能,药物发现提高筛选的精度。因此,研究主动学习的理论和技术,并应用于药物发现过程具有现实的应用意义。 在基因药物发现过程中,候选药物和标靶蛋白质存在不同的表示方法。例如,化学家提出了基于结构、物化性质等的数十类不同的特征描述子描述药物分子;生物学家使用1D/2D/3D等不同的方法表征蛋白质的结构和特征。不同的表达方法近似对应于多视图(Multi-view)学习中的不同视图(view),可以用多视图学习的方法充分利用不同的特征表达形式。问题在于多视图学习理论中不同视图之间的独立性假设在此应用中往往是不成立的。因此,研究和探索多视图学习中不同视图之间相关性的假设条件对学习性能的影响具有理论和现实的应用意义。 在基因药物发现过程中,任务之一就是预测具有相似化学结构或物化特性等的候选药物对某个特定标靶蛋白质是否具有活性,不同的标靶蛋白质对应不同的标靶预测任务。同样亦可预测特定的候选药物对不同的标靶蛋白质是否具有活性等,这样不同的候选药物对应于不同的药物小分子预测任务。无论是标靶预测任务还是药物小分子预测任务中,往往不同任务之间存在相互作用和相互影响。多任务(Multi-task)学习为实现不同任务之间的信息共享提供一条路径。问题在于如何实现不同任务之间的信息共享;如何发现不同任务之间是正相关还是负相关;如何改进学习算法学习率以及如何高效地求解学习的优化问题。因此,研究和探索多任务(Multi-task)学习具有理论和应用价值。 本项目拟结合机器学习、计算机辅助药物设计、化学基因组学等学科,将多视图(Multi-view)学习、多任务(Multi-task)和主动学习结合,综合利用分子的多重属性,以及系统中存在的大量未标记数据,提高候选药物分子与蛋白质相互作用预测模型的学习精度和泛化能力。一方面,本项目开展基于多视图(Multi-view)学习、多任务(Multi-task)与主动学习结合的关键技术研究,能够丰富多视图(Multi-view)学习、多任务(Multi-task)和主动学习的理论;另一方面,本项目将相关理论成果应用于药物发现过程,能促进计算机辅助药物设计的应用,对生产和设计高效、低毒、安全的药物具有重要的应用价值。