科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证

2024-03-06 生活常识 关注公众号
    :MolTC框架:革新药物分子交互研究,以AI驱动科研新突破
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    设想一场科研变革:当面临“新型药物分子作用于小白鼠体内将产生何种效应”这类问题时,若无需依赖繁琐的临床实验设计和重复验证,只需将药物与环境中多个分子信息输入类似ChatGPT的智能聊天机器人,就能迅速、准确预测出药物可能产生的所有影响。这一颠覆性技术有望大幅削减科研人员的时间成本和相关厂商资源投入,为更快速、精准地发现药物提供强大动力。
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    中国科学技术大学博士生方俊峰及其团队研发的全球首个统一多模态大语言模型分子交互学习框架——MolTC,正在打破这一看似遥不可及的科学幻想。在逾400万个分子数据集的严苛检验下,MolTC已成功验证其可靠性,方俊峰表示:“尽管目标仍显遥远,但我们的工作已在千里之行中迈出了坚实一步。”
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    MolTC框架聚焦于高效建模分子图信息,通过整合图编码器与映射器技术,实现对复杂分子关系的深度理解和精确模拟。该团队创新性引入多层级思维链概念,优化了大模型的思考模式和训练范式,并采用动态参数共享策略,在保证预测效率的同时提升预测精度。
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    
科学家提出大模型分子交互学习框架,能高效建模分子图信息,已在400多万分子对中得到验证    MolTC的革命性在于构建了一个全面且易于使用的分子交互输出平台,无需深度学习背景或生化先验知识,即可通过集成海量多元化的分子交互任务,显式高效地揭示并掌握分子间的隐藏关联。这不仅打破了传统深度学习模型只能处理少量任务的局限,也弥补了传统大模型隐式学习分子交互规律的短板,即使面对少样本甚至零样本任务,MolTC依然能够保持卓越的精准度和效率。
    
    当前多数分子交互模型需要用户具备特定的专业背景,而MolTC一旦整合了广泛丰富的交互任务,凭借其在零样本任务上的出色表现,能直接给出交互结果,同时适用于多种分子交互任务的分析与建模。
    
    研究起源于当前分子关系学习领域所面临的困境:过于依赖文本信息如SMILES编码,导致未能充分利用分子图中的结构信息;缺乏一个统一的分子交互学习框架,阻碍了跨数据集关键信息的学习提炼。针对这些问题,方俊峰团队借鉴AlphaFold2等生物化学大模型的成功案例,着手开发MolTC框架,旨在解决分子交互任务中的核心挑战。
    
    在研发过程中,团队首先解决了如何高效提取并让大模型理解分子对信息的问题。他们借助Q-Formers架构的启示,利用两个图神经网络编码器获取分子对表征,并通过Q-Formers将其映射至大语言模型的输入空间,使模型如同安装了一双洞悉分子交互的“慧眼”。
    
    然而,分子对交互性质的分析远比单个分子性质复杂,对此,团队创新性地采用了多层级思维链的方法,引导大模型逐步表达,从定性到定量逐层解析分子交互特性,显著提升了预测准确性。通过预训练阶段精心设计的数据集和提示词,MolTC得以适应不同应用场景,尤其在涉及复杂的定量分子交互任务时,展现出了卓越的预测能力。
    
    面对模型混淆输入分子性质的问题,团队通过额外引入分子的SMILES形式来区分输入顺序,确保了MolTC在各类分子交互任务中取得优秀效果。随后,为了应对统一学习框架中不断加入新数据集而导致的精度下降问题,吴畅等人注意到底层交互机制虽有共性但表现各异,于是他们引导MolTC根据角色和顺序创建独特的编码,并采用动态参数共享策略排除冗余信息干扰。
    
    经过横跨12个分子交互数据集、涵盖超过400万个分子对的大规模验证,MolTC的有效性和准确性得到充分证明。近期,相关研究成果《MolTC:语言模型中的分子关系建模》已发表在arXiv上,方俊峰为第一,中科大教授王翔担任通讯。
    
    未来,团队计划进一步丰富MolTC的训练数据,致力于打造真正意义上“统一”的分子交互学习框架,并针对大分子交互任务的表现瓶颈,计划嵌入信息压缩模块,利用诸如“图信息瓶颈”等先进技术,排除冗余信息,拓宽MolTC的应用范围,持续推动分子交互领域的科研进步。

上一篇:DNF:都比男鬼剑士设计的好看?3大职业模型重做外观,女枪手成赢家
下一篇:3月中路法师最新梯度排行:沈梦溪胜率提升,“五大法王”换人!
更多更酷的内容分享
猜你感兴趣
新加坡留学生构建AI推理框架,引领大模型提升效率

新加坡留学生构建AI推理框架,引领大模型提升效率

新加坡国立大学博士生康力伟和赵子瑞提出的AI分析框架旨在提高大模型的推理能力,同时强调了思维链和思维树在提升模型推理能力方面的应用。研究表明,思维链能降低推理模型的描述长度,从而降低问题的样本复杂度;而思维树虽然也能提供改进,但在某些计算复杂度高的任务上效果不佳。建议在选择推理方式时应考虑任务的计算复杂度,以便选择合适的算法。文章中提到的研究者基于样本复杂度和计算复杂度的分析框架,对四个不同的任务进行了分析,并给出了一些建议。其中,思维链的运用可以让复杂的问题被分解为简单的问题,并在每次简化后的运算过程中得出正确的结果。而在直接回答的情况下,可能会忽视中间的步骤,导致推理错误。

热点资讯 06.30
科学家推出新型算法,让现有大模型的微调效率得到显著提升

科学家推出新型算法,让现有大模型的微调效率得到显著提升

美国斯坦福大学研究团队推出了一种名为 ReFT 的方法,该方法通过训练干预模块对模型表征进行干预,实现更高效的微调效果。此方法基于线性子空间概念,在特定分词位置进行表征修改,节省计算资源并提高推理效率。最新研究表明,相关论文已将 ReFT 发表在预印网站 arXiv 上[1]。目前吴政璇和阿拉曼·阿罗拉是共同第一作者,该研究设计思路源于一次实验,最终研发出了 ReFT,有效解决了微调问题。需要注意的是,ReFT 是基于线性子空间概念,无需训练大量的模型参数。

生活常识 07.20
揭秘社交信号与睡眠关系:大型模型解析社交媒体参与者行为背后的分子机制

揭秘社交信号与睡眠关系:大型模型解析社交媒体参与者行为背后的分子机制

华中科技大学张珞颖教授和薛宇教授发现仅在群体环境下调节睡眠功能的基因MRE11,此研究有助于揭示大脑如何适应并调整群体环境中的睡眠模式。他们的新发现可以应用于群居动物的生物行为监测,帮助研究人员理解社交信号对人类睡眠及其他行为的影响。

生活常识 09.24
华科PSALM多元任务多模态模型构建与全面开源,实现深度学习的高效协同应用

华科PSALM多元任务多模态模型构建与全面开源,实现深度学习的高效协同应用

华中科技大学推出针对多模态大模型(LMM)在视觉任务中的应用挑战的解决方案——PSALM模型,该模型以统一框架实现普遍性分割任务,具有高效参数优化和多任务统一等特点。PSALM在多个已见分割任务上展现出超群表现,优于传统参数过大且功能单一的模型,充分体现了多模态大模型在视觉任务中的巨大潜力。

热点资讯 04.09
严重的结石症拖延会导致胆囊癌?要警惕!

千万不要忽视!结石持续拖延,后果不堪设想!

严重的结石症拖延会导致胆囊癌?要警惕! 千万不要忽视!结石持续拖延,后果不堪设想!

结石患者如果长时间忽视治疗,可能发展成为胆囊癌。李婆婆因为对症状的误解而错失最佳治疗时机,最终导致了严重的后果。胆囊结石虽然常见,但如果出现疼痛或者其他并发症,应及时就医,以免延误病情。姜小清教授指出,胆囊癌早期诊断困难,且多由于胆囊慢性炎症、感染等因素引发。此外,肥胖、糖尿病、家族史以及饮食习惯等因素也可能增加患胆囊癌的风险。

生活常识 11.10
ONWARDS 1研究:每周一次的胰岛素疗法疗效与安全性效果显著

ONWARDS 1研究:每周一次的胰岛素疗法疗效与安全性效果显著

最近一项在《 lancet diabetes endocrinol》杂志发表的研究中,研究人员比较了一周一次皮下注射依柯胰岛素和每日一次皮下注射甘精胰岛素U 100在 Insulin-naive Type 2 Diabetic 病人中的疗效和安全性。研究者通过长期观察,发现依柯胰岛素在不同时间段下的TIR、TITR、TAR 和 TBR 的平均百分比上均无显著差异,并且其对应的低血糖发作持续时间也有所改善。该研究表明,尽管依柯胰岛素存在一定的疗效和安全性问题,但并不影响其作为一线抗糖尿病药物的地位。

生活常识 11.10
长期出现这些症状,警惕脂溢性皮炎的危险!及时就诊,养成健康生活习惯

长期出现这些症状,警惕脂溢性皮炎的危险!及时就诊,养成健康生活习惯

成恶性循环。治疗方案:针对病因采取综合性治疗措施,改善生活环境,调整饮食结构,选择温和无刺激性的护肤品,并避免药物刺激。此外,口服维生素B族和抗氧化剂,也有助于改善脂溢性皮炎的症状。总的来说,保持良好的生活习惯,合理调节身体激素水平,有助于预防和缓解脂溢性皮炎的发生。

生活常识 11.10
应对右上腹痛:谨慎识别并处理可能的疾病

应对右上腹痛:谨慎识别并处理可能的疾病

因腹痛。

生活常识 11.10
全球视野下:物质文化演变与帝国猫咪的故事——记互联网时代的学术研讨会

全球视野下:物质文化演变与帝国猫咪的故事——记互联网时代的学术研讨会

化研究和全球化研究两个方面并重的。他强调了全球化时代物质文化研究的重要性,并提出了未来可能的趋势。 研讨会由清华大学人文学院历史系、首都师范大学历史学院、重庆大学出版社、《清华大学学报(哲学社会科学版)》编辑部、《首都师范大学学报(社会科学版)》编辑部、《全球史评论》编辑部主办,北京大学刘群艺、北京社会科学院高福美、东南大学李昕升、山西工程技术学院连东、上海师范大学罗易扉、西南大学赵国壮、西南民族大学肖坤冰、云南大学邱永志、中国社会科学院邢媛媛,以及重庆大学出版社游滨、张菱芷,首都师范大学刘文明、陈志坚、杜平,清华大学仲伟民、周思成、石伟、温方方、范静静、周文轩等二十余位学者、学生就全球化时代的物质文化相关问题进行了报告与讨论。 研讨会结束后,参会学者就全球化时代的物质文化研究的问题交换了观点和看法,为今后的研究提供了宝贵的参考。

生活常识 11.10
全球范围内,私人航空业二氧化碳排放量五年内增长46%

全球范围内,私人航空业二氧化碳排放量五年内增长46%

私人航空业2019至2023年间增加了46%的二氧化碳排放量,这主要发生在大型国际活动期间,尤其是联合国气候变化大会和国际足联世界杯。研究人员通过分析航班追踪数据得出结论:大型国际活动与私人航班大量增加有关。其中,第28届联合国气候变化大会涉及的4800吨二氧化碳排放量最大,占所有私人航班排放量的1.8%。同时,每名产生2400吨二氧化碳的个人在2023年约为500倍,远超2020年的平均水平。

生活常识 11.10
卤化物体系迎来重要进展:新型软硬双极性捕获剂助力卤化物水系液流电池应用}

卤化物体系迎来重要进展:新型软硬双极性捕获剂助力卤化物水系液流电池应用}

提高循环寿命和能量密度;用于大规模风能发电:利用SH-ZIT促进清洁能源间的电荷转移,从而提高发电效率和安全;应用于智能电网:利用SH-ZIT监测电网设备的工作状态,提升电力供应的稳定性和可靠性;在生物质能和地热能等可再生能源领域中也可能有广泛应用。总而言之,这项新成果具有广泛的应用前景,有助于推动跨领域的技术进步和可持续发展的进程。

生活常识 11.10
第七届进博会:全球首展《青鸟》白垩纪恐龙琥珀藏于世

第七届进博会:全球首展《青鸟》白垩纪恐龙琥珀藏于世

上海举办第7届进博会上,琥珀展品引人注目:最小恐龙品种《青鸟》和完整的食物链《谁是赢家》均展出。

生活常识 11.10
九寨沟再现罕见场景:3只水獭追逐嬉戏,引发游客惊叹不已

九寨沟再现罕见场景:3只水獭追逐嬉戏,引发游客惊叹不已

近日,九寨沟景区再现欧亚水獭生动画面,引来大量网友惊叹;同时,科研团队表示该海域生态环境稳定,但水表层存在藻类繁殖现象。

生活常识 11.10
南安网上竞赛结束,获奖名单揭晓,看看你的孩子有没有上榜?

南安网上竞赛结束,获奖名单揭晓,看看你的孩子有没有上榜?

南安市第八届少儿舞蹈群舞大赛颁奖晚会在南安市人民会堂成功举办。经过激烈竞争,有11个作品获奖,包括《龙的传人》等一等奖,以及《脚脚会唱歌》等等奖项。此次大赛由中共南安市委宣传部、南安市教育局、南安市文化体育和旅游局、南安市文学艺术界联合会主办,南安市文化馆、南安市人民会堂、南安市舞蹈家协会承办。

生活常识 11.10