近日,yl6809永利江健教授团队科研成果“Machine Learning Methods for Small Data Challenges in Molecular Science”在化学领域国际顶级期刊《ChemicalReviews》上在线发表(文章链接:https://pubs.acs.org/doi/10.1021/acs.chemrev.3c00189)。该杂志2023年最新影响因子为62.1,排全球所有杂志第21位。系公司首次在该杂志上发表学术论文,也是公司历史上发表影响因子最高的成果。公司为第一单位和第一通讯单位,yl6809永利江健教授为第一通讯作者,关于2021级研究生窦博正为第一作者,计算系统生物学团队成员与美国密歇根州立大学Guo-wei Wei教授团队共同合作完成。该成果的发表是公司数学团队建设过程中取得的重大成果之一。
一直以来,yl6809永利始终把科学研究作为立院之基、强院之本。在加强基础研究的同时,大力推进交叉学科研究,近年来在国家自然科学基金方面表现尤为突出,累计获批国家自然科学基金20余项,其中面上项目8项。这些成果的获得,将强有力助推学校一流团队建设,为学校申博攻坚和提高学校科学研究影响力和国际声誉做出了贡献。
由于数据获取中存在时间、成本、伦理、隐私、安全等各种限制,小数据在科学和工程研究中非常常见。然而,大数据处理与分析一直是过去十年到现在的焦点,小数据集及其挑战却很少受到关注,尽管在机器学习和深度学习研究中它们在技术上面临更为严峻的挑战。总体而言,小数据集挑战往往因数据多样性、填补、噪声、不平衡和高维度等问题而变得更加复杂。幸运的是,当前大数据时代的特点是机器学习、深度学习和人工智能的技术突破,使得数据驱动的科学发现成为可能,而许多为大数据开发的先进机器学习技术无意中为小数据集问题提供了解决方案。因此,过去十年中,针对小数据挑战的机器学习和深度学习取得了重大进展。
该论文总结并分析了分子科学(包括化学、生物、医药和材料)中小数据集挑战的几种潜在的新兴解决方案。论文详细的从逻辑回归、K近邻、支持向量机、核函数学习、随机森林和梯度提升树,以及更先进的技术,包括人工神经网络、卷积神经网络、U-net、图神经网络、生成对抗网络、长短期记忆、自编码器、transformer、迁移学习、主动学习、基于图的半监督学习,以及基于物理模型的数据增强技术等方面讨论了这些方法的最新进展,并对小数据集挑战未来发展趋势做了相关展望。该研究工作得到了国家自然科学基金项目(11971367,12271416,11972266)的资助。
江健教授一直从事药物设计、复杂网络建模等交叉学科方面的研究。2021年通过结合几何拓扑和机器学习算法,构建的梯度提升多任务深度学习模型在药物分子脂溶性和溶解度等属性预测上取得领先;2022年结合几何图论和机器学习算法构建多尺度着色图模型在药物分子毒性上取得更好的预测准确度;2023年结合同调论和深度学习构建拓扑推断下的药物致瘾性学习模型,对致瘾性药物分子进行预测,寻找最优的先导化合物分子。
江健教授所在的计算系统生物学团队负责人为张本龚教授,主要从事数学与大数据技术、计算系统生物学、机器学习、药物设计等领域交叉科学研究。近5年来,在单细胞测序数据分析、药物设计及发现、蛋白质结构预测和高光谱图像处理等研究领域取得了丰富研究的成果。团队教授2人,副教授3人,讲师2人,承担国家自然科学基金6项(其中面上2项),省部级项目5项,发表SCI论文60余篇。
通讯作者介绍:江健,男,yl6809永利,四级教授,阳光学子,硕士生导师,应用数学系主任。研究方向包括计算生物信息学、药物设计、复杂网络及数学建模等。在国内外重要期刊如Scientific Report、JCIM、JCP、JSTAT等发表学术论文近30篇。主持和参与国家自然科学基金项目5项、省部级项目2项。多次应邀到法国、韩国、美国等国(境)内外参加国际学术会议并做邀请报告和访问研究。担任Briefings in Bioinformatics、Frontiers in Molecular Biosciences、Scientific Report、Physcia A等国内外重要与权威刊物的审稿人。