北大团队提出新方法，让GPT-4安全性提升超26%，堪称大模型的“安全补丁”。

2024-03-10 热点资讯关注公众号

自从我们提出对齐器这一创新性大语言模型对齐范式以来，迅速引发了科技业界的热烈反响。这款在发布首月就已被多家科技巨头采用的对齐器，凭借其轻量级、高效训练及对大模型参数无感的特性，有望成为大模型对齐领域的革新替代方案，正如北京大学人工智能研究院杨耀东研究员所强调。
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

[图片：杨耀东（来源：资料图）]
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

对齐器，实质上是一种颠覆性的大语言模型对齐新模式，立足于“通过修正未对齐答案与对齐答案间的残差”这一独特洞见，构建了高效且可扩展的对齐机制。（来源：arXiv）
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

在应用前景方面，对齐器展现出了三大核心价值：
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

1. 作为RLHF的有效补充：对齐器犹如大语言模型的智能强化外挂和补丁，它能有效解决当前稀疏奖励机制导致的RLHF不稳定性问题。通过对错误回答的学习修正，确保大模型能够稳定输出与人类价值观相契合的，从而摆脱对话结束时依赖的人工标注监督信号。
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

2. AI安全与治理的关键工具：轻便高效的对齐器为政府监管机构以及第三方组织提供了一种潜在可行的解决方案，无需大规模算力储备或直接访问大模型参数，就能实现高效对齐，并发布符合规范的对齐器版本，从而加强对AI系统的审计和监管。
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

3. 价值对齐的重要载体：面对如何确保大模型等人工智能系统遵循人类价值观（如公平、正义、善良等），并有效处理伦理与价值冲突的问题，对齐器以承载价值对齐功能的外挂模块形式出现，通过“价值修正”对大模型决策和输出进行额外指导，为实现价值对齐提供了切实可行的路径。（来源：arXiv）
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

在AI对齐领域中，如同ResNet在深度学习网络发展中的突破时刻，对齐器的诞生同样具有划时代的意义。自21世纪起，大规模神经网络的发展面临梯度爆炸或消失等问题，众多研究者虽不断调整架构却收效甚微。然而，ResNet的横空出世，通过引入残差学习思想解决了这些问题，使得深度网络层数得以大幅度扩展。
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

在通用模型时代，AI对齐——即确保AI系统与人类意图相符的需求日益凸显。然而，现行方法如RLHF存在复现难度高、人类奖励信号不一致、调参复杂且难以应用于API-Based模型（例如GPT-4/Claude）等问题。杨耀东课题组基于深厚的对齐领域研究经验预判到，必然存在一种高效且节省参数的对齐方法。
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

团队转换视角，认为让大模型修正“非对齐的回答”，相比直接生成“对齐的回答”更为容易。于是，他们首次将ResNet中的残差学习理念应用于大模型对齐，创造性地提出了对齐器概念。对齐器通过学习未对齐和对齐答案之间的残差，显著提升了对齐效果的效率。
将GPT-4安全性提升26%以上，北大团队提出AI对齐新范式，能充当大模型的“补丁”

    实验中，杨耀东团队优化训练技巧，调整模型架构，在不同规模数据集上训练了多种尺寸的对齐器。一款仅7B参数的对齐器在单次训练后，就能够在涵盖闭源、开源、安全性对齐及非安全性对齐的11种大模型上平均提升帮助性和安全性21.9%和23.8%，其中对GPT-4的帮助性和无害性分别提高了17.5%和26.9%。此外，团队还验证了对齐器用于提升模型共情能力的可能性，经微调后的Aligner-7B和Aligner-13B能使GPT-4输出的共情能力提升超过50%。
    对齐器更进一步地指向了一个名为“超级对齐”的新方向，旨在解决强模型向弱模型对齐的难题，特别是在未来模型能力超越人类时，如何提供有效的监督信号。在这一方面，对齐器展示了实现“弱至强泛化和可扩展监督”的新颖解决方案。
    日前，相关研究成果以《对齐器：通过弱至强校正实现有效调整》为题发表在arXiv上，由北京大学AI安全与治理中心独家完成，吉嘉铭、陈博远为第一，杨耀东担任通讯。（来源：https://aligner2024.github.io）
    未来计划中，课题组将继续拓展对齐器的应用场景和技术迭代：
    1. 发布不同版本和类型的对齐器，包括轻量级的0.5B、1.8B、2B模型，以及token-level和sentence-level的对齐器，验证修正范式在小模型上的表现并增强模型输出效率和推理能力。
    2. 开发混合专家架构和流式化处理的对齐器，通过集成多个专项训练的对齐器，实现多维度、多价值的高效对齐。
    3. 将对齐器思想融入前置模型架构中，针对特定参数层进行专项训练，减轻后续对齐压力，提高预训练模型的安全性和通用性。
    4. 推出plus版本对齐器，针对代码、数学、音乐等领域定制对齐器，满足不同用户需求。
    5. 将对齐器技术推广至文生视频大模型，如Sora、Pika等领域，通过对生成的微调来提升视频和图片的质量，使其更符合真实世界物理规律和视觉感受。
    6. 利用对齐器协助实现可扩展监督，将其作为辅助提供奖励信号的助手，在复杂场景下提供精确的奖励监督信号，以解决超对齐问题。
    值得一提的是，该课题组在AI安全与治理方面的贡献获得了广泛认可。他们撰写的全面综述论文“AI Alignment: A Comprehensive Survey”被美国商务部国家标准技术研究所（NIST）在其可信赖和负责任的人工智能研究项目中引用，提出的对齐循环框架在NIST的论文《对抗性机器学习：攻击与缓解的分类和术语》中得到了阐述。今后，课题组将持续深耕AI对齐领域，推动强人工智能与人类意图价值的深度融合与发展。
    参考资料：
    1. https://arxiv.org/abs/2402.02416
    2. https://arxiv.org/abs/2310.19852
    运营/排版：何晨龙

上一篇:《庆余年2》来袭：二皇子拿捏费介、算计范闲成笑话？费介可屠城
下一篇:【百家民企说】高德红外黄立：发展新质生产力，企业应成为创新主体

更多更酷的内容分享

猜你感兴趣

女王大学团队研发AI基础模型评审团：提高AI研究效率的新路径

加拿大女王大学研究团队提出AI基础模型评审团方法，提升AI研究效率。该团队收集了来自17家顶尖科技公司的上千篇行业博客文章，创新性地使用基础模型进行自动分类和标注。通过对这些博客的研究，研究团队发现基础模型对软件工程的赋能以及软件工程原则如何应用于基础模型的开发和部署。该团队提出了未来研究的方向，以期推动学术界与业界的深度结合。在未来，该团队将持续升级基础模型陪审团方法，并期待与企业深度合作，推动基础模型在各个领域的广泛应用。

热点资讯 11.09

北航团队创新方法打造新偏好的数据构建框架，助力大规模模型精准对齐效果

以下是文章摘要：本文报道了北京航空航天大学、AI初创公司零一万物等团队合作提出了一种名为“PopAlign”的新偏好的数据构建框架。该框架集成了六种对比响应的引导生成策略，全面覆盖了在响应生成过程中可能出现的各种对比先验。通过运用这些策略，团队可以提高大模型的对齐效果并降低成本。此外，“PopAlign”还强调了模型的安全性和鲁棒性，并已在预印本平台上发布。

热点资讯 11.21

罗格斯大学团队提出思想链，让大模型算术更强大！

美国罗格斯大学博士生金明宇和团队通过引入思想链（CoT）的概念，显著提高了大语言模型在复杂推理任务上的性能。CoT通过提供推理过程的示例教会模型逐步解决问题，特别适用于常识、算术和符号推理等任务。研究发现，CoT提示对大型模型效果显著，与模型参数数量呈绝对线性关系，可帮助设计更规范的prompt，提高推理步骤和正确率。

热点资讯 03.17

悉尼大学华人团队开发创新低成本算法：提升网页视觉分类的鲁棒性！

研究揭示新型边缘信息提取技术：轻量级、即插即用的EdgeNet可提高抗鲁棒性及在清晰图像上的准确性。通过大量实验验证，该方法比传统方法成本更低，并且可以提高现有深度网络的效率。

生活常识 04.10

内塔尼亚胡出逃美国被紧急召回，拜登表示「非常愤怒」

CIA没有足够的证据来证明以色列的行为违反了国际法或人类罪。其次，这一逮捕令可能加剧双方紧张关系，而不是缓解冲突。尽管如此，国际社会还是给予了以色列极大的支持，包括荷兰、法国等欧盟国家在内的多个国家都表示愿意提供援助或协助。这表明了人类道义上的共同责任，即保护无辜受害者的权益，维护世界和平稳定。

热点资讯 11.22

绍伊古的面色凝重：无法购买到中国大炮的原因分析

绍伊古罕见访问中国珠海航展，购买不到中国大炮，导致他的脸色变得凝重；这是俄罗斯转向寻求盟友的重要迹象，有望与中国建立全面战略伙伴关系。此事令中方罕见沉默，认为双方应当共同对抗美国及其附庸国的遏制政策。

热点资讯 11.22

日本女神的背后故事：从爆红到下海，再到中国的求生之路

2009年8月3日，酒井法子丈夫吸D，继母家发现死亡女尸。原来，她为掩盖吸毒事实，仅用一周时间吸食D，并带至出租屋内。因无法逃脱法律制裁，最终在7月29日自杀身亡。她从不敢相信自己竟然会被生活抛弃，在得知真相时崩溃痛哭。揭露了她虚伪的爱情背后隐藏的秘密，令人深思。

热点资讯 11.22

成都AG超玩会五省团队团结并肩，五年五冠创辉煌

成都AG超玩会击败重庆狼队赢得KPL年度总冠军，并获得了多个奖项。首发五名选手包括徐必成、谢承峻、陈家豪、刘明和孟家俊，其中徐必成被封为团队核心，成功实现双冠。其他年轻选手如徐必成继续追求荣誉，而成都AG超玩会也成为首位年度总冠军。

热点资讯 11.22

T1老板：宙斯临时变卦！经纪公司：T1恶意压价，引发行业震动

过薪资还是合同条款，都无法满足他。对于这种情况，T1和Zeus的经纪公司开始在网上互相指责，他们认为是对方逼迫 Zeus 进行转会，而非 Zeus 真实的意愿。此外，双方也在转会期结束后仍然持续着激烈的互动，包括口水战和揭露对手背后的猫腻。因此，无论是舆论环境还是比赛本身，这场比赛都将吸引更多的关注。

热点资讯 11.22

BLG队被取消春季赛资格，原因是LPL禁赛事件引发的重大质疑，而IG因违规严重遭处罚，Xun或将离队。 BLG遭禁赛风暴：I.G涉嫌违规，Xun或被迫离职。

IG经理锅盔违规挖人被禁赛，BLG被迫全员续约，今年世界赛中表现抢眼的Xun被迫离队。这标志着T1的阵容配置将被削弱，同时也会对LPL乃至全球电竞市场产生重大影响。目前看来，此事件已经影响到了最强战队BLG，Xun下路位置或将失去主力位置。

热点资讯 11.22

小鹏新生活遭打击：网络暴力现象频发令人忧虑

新闻标题时，可以将其概括为“2024 年第三季度，零跑汽车净亏损收窄 40.71%”。这两个事件都在广州车展上引起了不小的轰动，其中的第一件事是何小鹏的好日子，他迎来了自己最好的一天。第二件事是零跑汽车在广州车展上打响了明年价格战的第一枪，两款车都以低价高配的性价比打法翻身，注定避免不了迟早要打一场恶仗。尽管小鹏的品牌知名度不如零跑，但是在业绩上，它们并不输阵。可以看出，零跑汽车通过大规模的销售和盈利模式的创新，成功地实现了规模效应下的亏损收窄。

热点资讯 11.22

雷克萨斯ES：过去所经历的挫折和挑战如今已成为历史。享受豪华驾驶体验的机会来了!

对标价较高的特斯拉推出了更具竞争力的价格策略。雷克萨斯在广州车展上发布的全新ES车型是一款全新的25款ES200和25款ES300h，其中ES200的设计有所微调，提升了副驾驶气囊和矩阵大灯等细节配置，但动力、智能化、电动化方面的改变并不明显。与此同时，随着豪华车市场“闪崩”的趋势，雷克萨斯也调整了ES系列的定价策略，强调纯进口品牌的定位和相对较低的市场竞争占比，但这并未能提升其在中国市场的销售表现。根据腾讯混元大模型的分析，这次发布的新ES车型并没有带来预期的积极变化，消费者对新款ES车型的表现表现出了失望的情绪。

热点资讯 11.22

比亚迪公司是否将收购蔚来汽车?

比亚迪与蔚来合作，成立比未来汽车集团，比亚迪占股51%，蔚来占股49%。但双方高层澄清，并强调该消息是胡说八道。

热点资讯 11.22

股市与楼市：现实情况并非想象中的那么简单

房地产市场迎来多重利好的转折点，包括广东省经济工作调度会议对房地产市场的支持以及广州市同创卓越房地产投资顾问有限公司总经理赵卓文对股市表现的担忧等。投资者需密切关注政策动向，谨慎决策是否离场。对于房地产市场来说，关注资产价格下降、通胀加剧以及城市更新等问题，但应注意稳定性和安全性高的产品。总的来说，随着各方积极努力，房地产市场有望逐渐走出低谷并迎来新的发展机遇。

热点资讯 11.22