计算生物学能“一招鲜”走天下吗?这个团队说验证与迭代是关键
团队介绍
|PROFILE
团队名称:发际线与我们作战团队
名次:优胜奖
主要成员:康玲、韩立、曾祥铭、张童焱、喻泽彬
大连东软信息学院
发际线与我们作战
团队
对计算生物学来说,什么是最重要的?想要发现可成药的化合物分子,算法与软件固然重要,不过在大连东软信息学院研究院教授康玲看来,计算背景出身的研究者往往会缺少“湿实验”验证的契机,而这也正是她想要参加2023上海国际计算生物学创新大赛的原因。
康玲带领的团队在本次比赛中入围前十,“计算本身并不复杂,核心的算法才是关键,到目前为止,我们还在不断迭代我们的算法,这是一件持续要做的事情。”
1
“以赛促算”:纯计算背景
需要验证“湿实验”的契机
对于康玲自己来说,参加比赛的初衷,是想要做一次验证,“想验证自己的软件行不行”。
本次比赛,康玲团队基于NMDA受体家族已知的蛋白序列及活性分子信息,通过自主研发的软件ImageDTA发现潜在的高活性分子。
“我们所开发的软件采用的是深度学习技术。”康玲介绍到,首先,蛋白质序列和配体SMILES字符串被输入到嵌入层,其中,配体分子和蛋白质被编码为128维的词向量。接着,利用多尺度二维卷积神经网络来提取配体分子的特征,并通过第一个连接层融合这些特征。由三个一维卷积网络和一个最大池化层从蛋白质序列中提取特征。
在康玲看来,团队最大的创新点在于对特征的提取。“我们将蛋白质和配体分子的词向量编码作为“图像”来进行处理,这也是这款软件叫ImageDTA的原因。”康玲谈道,“通过这样的处理,我们能够最大化获取到蛋白质和配体分子内部所具备的特征信息。”
康玲介绍,为了捕获特征向量的局部和全局依赖性,还使用了双向长短期记忆模型(BiLSTM),“这个技术是大家都知道的技术,只不过我们把它用在了特征提取上面,所以实际上是从多个角度来对蛋白质和配体分子的特征做提取。”最后,将配体分子特征、蛋白质特征和BiLSTM的输出融合后,将它们输入到全连接层进行预测。
为什么要通过比赛来验证软件的成熟性?据康玲介绍,这源于赛制本身的合理设计。据悉,本次大赛特别创设“算法您提供,验证我帮您”的机制,将联合权威机构为参赛团队提供真实实验进行验证,采用创新的研究方法,将计算机算法(“干”)和实验验证(“湿”)相结合,在确保算法有效性和可靠性的基础上,进一步推动算法优化和新药研发进程,为客观评价药物筛选AI算法的实战能力提供机会。
这个机会,正是如康玲这样的纯计算科学背景的研究人员所需要的。她谈到,从计算科学出发做计算生物学存在一个困境:“计算做到一定程度,你认为自己好,但其实并不能说明你真的好。”湿实验才是见“真刀真枪”的地方。
2
“以赛促教”:
计算生物学必须培养交叉人才
一眼望去前十入围名单,康玲团队“发际线与我们作战”的队名颇为吸睛。谈起这个,康玲笑着说道,“队名是我们学生起的,因为做开发经常熬夜,很容易有发际线方面的困扰。”
据康玲介绍,这一团队由“2+3架构”组成,2是两位老师,康玲与韩立作为教师,本身在学校里也负责AI+营养、AI+药物发现等课题,3为三位本科生曾祥铭、张童焱和喻泽彬,他们在大二期间加入相关课题组,即将开学进入大四阶段。
“本次入围前十,其实最兴奋的是我们学生们,走过这几轮重重考核,他们都觉得‘我们竟然能做这样的事,而且做得挺好’,这对他们的激励确实非常大。”
康玲认为,与学生们共同参加这个比赛,是一个很好的“以赛促教”的过程。她谈道,本科学生的基础可能没有那么深厚,在项目中更多地从事计算、数据收集、测试等环节,但也正是这些能让刚入门的学生们领略到计算生物学魅力,“基于我此前的博士训练,我所具备的这些领域知识对他们入门是足够的,但是如果再深入的话,他们就需要自己持续把这个领域知识补上,其实这是比较难做的一件事情。”
从计算机应用技术专业博士毕业,再到力学博士后流动站出站,基于兴趣导向,康玲将计算机应用场景放在药物发现方面。在博士就读期间,她就曾与中国科学院上海药物所相关研究团队在药物发现方面共同合作,“他们做实验,我们做计算。”在这个过程中,她认识到,“计算和实验必然是需要融合,,实验需要计算来缩减时间、降低费用,而我们做计算又需要实验,反过来验证我们做法的可行性,这是一个相互促进的关系。”
“交叉是必须要做的,我觉得交叉就是技术专家和领域专家必须要有协同,只有这种协同做得足够好,这个学科才能够得到发展。”
企业及专家观点不代表官方立场
特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!