应用数学与交叉科学研究中心生物信息学团队于2024年3月第1次组会按期举行,小组全体成员和各位导师共同参加。在这次组会上,由一名研一员工和两名研二员工分别汇报自己的研究进展,然后老师与同学们对汇报内容进行学术探讨,并对存在的问题给出相应的指导和建议。
孙睿:本次汇报了关于空间可变基因方向的工作,着重汇报了关于空间表达数据的模拟数据的生成,模拟数据结果的比较。从已有的文献中对基因的空间表达模式分析进行了列举,主要比较了两种不同的额表达模式之间的差异。展示了我们的模型对于模拟数据的判定结果,并对结果进行了解释分析。
郭成:本次汇报了RNA残基接触预测的相关工作,在原有核酸序列数据库的情况下,首先将核酸序列数据库随机拆分成若干份,得到若干个序列数据文件,再使用makeblastdb工具分别重新构建序列数据库;为后面的序列搜索做准备,去搜索相似同源家族序列。其中先选取2个测试数据集:PLMC(19条序列)、coconet(23条序列),以及在RNA数据集上进行阶段测试结果。
李莎莎:本次组会汇报了一篇文献《Predicting coaxial helical stacking in RNA junctions》以及基于该文献所做的一些工作。RNA多分支环是RNA分子中重要的结构元件,广泛地参与到了催化作用、核糖开关、翻译起点等生物学过程。因此,确定它们的结构构型对于预测RNA的三维结构非常重要。Schlick等人从已解决结构的RNA二级结构中提取特征构建数据集,用随机森林算法对数据集进行训练,并通过75次10折交叉验证的平均准确率来评估模型。对于三分支和四分支,他们的平均准确率分别为81%和77%,而对于五分支及以上的数据,平均准确率为60%。基于该文献,我将三分支环数据集从110条数据新增到1200多条数据,并增加了三个stem区域自由能的特征,用随机森林、SVM、KNN算法对新的数据集进行训练,得到的平均准确率分别为87%、82%、85%。
— 员工汇报照片展示 —