北大团队提出新方法,让GPT-4安全性提升超26%,堪称大模型的“安全补丁”。

2024-03-10 热点资讯 关注公众号
    自从我们提出对齐器这一创新性大语言模型对齐范式以来,迅速引发了科技业界的热烈反响。这款在发布首月就已被多家科技巨头采用的对齐器,凭借其轻量级、高效训练及对大模型参数无感的特性,有望成为大模型对齐领域的革新替代方案,正如北京大学人工智能研究院杨耀东研究员所强调。
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    [图片:杨耀东(来源:资料图)]
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    对齐器,实质上是一种颠覆性的大语言模型对齐新模式,立足于“通过修正未对齐答案与对齐答案间的残差”这一独特洞见,构建了高效且可扩展的对齐机制。(来源:arXiv)
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    在应用前景方面,对齐器展现出了三大核心价值:
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    1. 作为RLHF的有效补充:对齐器犹如大语言模型的智能强化外挂和补丁,它能有效解决当前稀疏奖励机制导致的RLHF不稳定性问题。通过对错误回答的学习修正,确保大模型能够稳定输出与人类价值观相契合的,从而摆脱对话结束时依赖的人工标注监督信号。
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    2. AI安全与治理的关键工具:轻便高效的对齐器为政府监管机构以及第三方组织提供了一种潜在可行的解决方案,无需大规模算力储备或直接访问大模型参数,就能实现高效对齐,并发布符合规范的对齐器版本,从而加强对AI系统的审计和监管。
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    3. 价值对齐的重要载体:面对如何确保大模型等人工智能系统遵循人类价值观(如公平、正义、善良等),并有效处理伦理与价值冲突的问题,对齐器以承载价值对齐功能的外挂模块形式出现,通过“价值修正”对大模型决策和输出进行额外指导,为实现价值对齐提供了切实可行的路径。(来源:arXiv)
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    在AI对齐领域中,如同ResNet在深度学习网络发展中的突破时刻,对齐器的诞生同样具有划时代的意义。自21世纪起,大规模神经网络的发展面临梯度爆炸或消失等问题,众多研究者虽不断调整架构却收效甚微。然而,ResNet的横空出世,通过引入残差学习思想解决了这些问题,使得深度网络层数得以大幅度扩展。
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    在通用模型时代,AI对齐——即确保AI系统与人类意图相符的需求日益凸显。然而,现行方法如RLHF存在复现难度高、人类奖励信号不一致、调参复杂且难以应用于API-Based模型(例如GPT-4/Claude)等问题。杨耀东课题组基于深厚的对齐领域研究经验预判到,必然存在一种高效且节省参数的对齐方法。
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    团队转换视角,认为让大模型修正“非对齐的回答”,相比直接生成“对齐的回答”更为容易。于是,他们首次将ResNet中的残差学习理念应用于大模型对齐,创造性地提出了对齐器概念。对齐器通过学习未对齐和对齐答案之间的残差,显著提升了对齐效果的效率。
将GPT-4安全性提升26%以上,北大团队提出AI对齐新范式,能充当大模型的“补丁”    实验中,杨耀东团队优化训练技巧,调整模型架构,在不同规模数据集上训练了多种尺寸的对齐器。一款仅7B参数的对齐器在单次训练后,就能够在涵盖闭源、开源、安全性对齐及非安全性对齐的11种大模型上平均提升帮助性和安全性21.9%和23.8%,其中对GPT-4的帮助性和无害性分别提高了17.5%和26.9%。此外,团队还验证了对齐器用于提升模型共情能力的可能性,经微调后的Aligner-7B和Aligner-13B能使GPT-4输出的共情能力提升超过50%。
    对齐器更进一步地指向了一个名为“超级对齐”的新方向,旨在解决强模型向弱模型对齐的难题,特别是在未来模型能力超越人类时,如何提供有效的监督信号。在这一方面,对齐器展示了实现“弱至强泛化和可扩展监督”的新颖解决方案。
    日前,相关研究成果以《对齐器:通过弱至强校正实现有效调整》为题发表在arXiv上,由北京大学AI安全与治理中心独家完成,吉嘉铭、陈博远为第一,杨耀东担任通讯。(来源:https://aligner2024.github.io)
    未来计划中,课题组将继续拓展对齐器的应用场景和技术迭代:
    1. 发布不同版本和类型的对齐器,包括轻量级的0.5B、1.8B、2B模型,以及token-level和sentence-level的对齐器,验证修正范式在小模型上的表现并增强模型输出效率和推理能力。
    2. 开发混合专家架构和流式化处理的对齐器,通过集成多个专项训练的对齐器,实现多维度、多价值的高效对齐。
    3. 将对齐器思想融入前置模型架构中,针对特定参数层进行专项训练,减轻后续对齐压力,提高预训练模型的安全性和通用性。
    4. 推出plus版本对齐器,针对代码、数学、音乐等领域定制对齐器,满足不同用户需求。
    5. 将对齐器技术推广至文生视频大模型,如Sora、Pika等领域,通过对生成的微调来提升视频和图片的质量,使其更符合真实世界物理规律和视觉感受。
    6. 利用对齐器协助实现可扩展监督,将其作为辅助提供奖励信号的助手,在复杂场景下提供精确的奖励监督信号,以解决超对齐问题。
    值得一提的是,该课题组在AI安全与治理方面的贡献获得了广泛认可。他们撰写的全面综述论文“AI Alignment: A Comprehensive Survey”被美国商务部国家标准技术研究所(NIST)在其可信赖和负责任的人工智能研究项目中引用,提出的对齐循环框架在NIST的论文《对抗性机器学习:攻击与缓解的分类和术语》中得到了阐述。今后,课题组将持续深耕AI对齐领域,推动强人工智能与人类意图价值的深度融合与发展。
    参考资料:
    1. https://arxiv.org/abs/2402.02416
    2. https://arxiv.org/abs/2310.19852
    运营/排版:何晨龙

上一篇:《庆余年2》来袭:二皇子拿捏费介、算计范闲成笑话?费介可屠城
下一篇:【百家民企说】高德红外黄立:发展新质生产力,企业应成为创新主体
更多更酷的内容分享
猜你感兴趣
女王大学团队研发AI基础模型评审团:提高AI研究效率的新路径

女王大学团队研发AI基础模型评审团:提高AI研究效率的新路径

加拿大女王大学研究团队提出AI基础模型评审团方法,提升AI研究效率。该团队收集了来自17家顶尖科技公司的上千篇行业博客文章,创新性地使用基础模型进行自动分类和标注。通过对这些博客的研究,研究团队发现基础模型对软件工程的赋能以及软件工程原则如何应用于基础模型的开发和部署。该团队提出了未来研究的方向,以期推动学术界与业界的深度结合。在未来,该团队将持续升级基础模型陪审团方法,并期待与企业深度合作,推动基础模型在各个领域的广泛应用。

热点资讯 11.09
罗格斯大学团队提出思想链,让大模型算术更强大!

罗格斯大学团队提出思想链,让大模型算术更强大!

美国罗格斯大学博士生金明宇和团队通过引入思想链(CoT)的概念,显著提高了大语言模型在复杂推理任务上的性能。CoT通过提供推理过程的示例教会模型逐步解决问题,特别适用于常识、算术和符号推理等任务。研究发现,CoT提示对大型模型效果显著,与模型参数数量呈绝对线性关系,可帮助设计更规范的prompt,提高推理步骤和正确率。

热点资讯 03.17
悉尼大学华人团队开发创新低成本算法:提升网页视觉分类的鲁棒性!

悉尼大学华人团队开发创新低成本算法:提升网页视觉分类的鲁棒性!

研究揭示新型边缘信息提取技术:轻量级、即插即用的EdgeNet可提高抗鲁棒性及在清晰图像上的准确性。通过大量实验验证,该方法比传统方法成本更低,并且可以提高现有深度网络的效率。

生活常识 04.10
Clade 推出全新 iOS 版 App,GPT-4 不可阻挡的挑战:最新模型超越了自我!

Clade 推出全新 iOS 版 App,GPT-4 不可阻挡的挑战:最新模型超越了自我!

anthropic 宣布推出Claude移动端 App,主要关注该大模型在执行复杂任务的能力上与GPT-4相当。

热点资讯 05.03
双十一规避攻略:‘先用后付’的开通与取消难题,双十二购物指南在此为您解答!

双十一规避攻略:‘先用后付’的开通与取消难题,双十二购物指南在此为您解答!

双十一期间,部分电商平台推出“先用后付”支付模式引发消费者关注。开通快捷关闭困难,消费者反馈默认付款方式发生变化,造成交易误差与违约金产生等问题。专家建议商家提高透明度告知风险因素,消费者保持理性判断谨慎操作。在享受“买买买”的乐趣的同时,请警惕“先用后付”带来的各种陷阱。消费者应详细查看测评信息真实有效性,在合理范围内选择购物平台与物品。若发现误操作、违规处理请立刻联系客服解决。遵循上述建议,您将能更安全、更放心地参与电商平台活动。

热点资讯 11.10
中国回应黄岩岛领海争议:重申基线声明

中国回应黄岩岛领海争议:重申基线声明

中华人民共和国发布黄岩岛领海基线声明,将黄岩岛及其附近岛屿的海洋主权确定下来。该基线涉及多个海域,强调了中国人民对领海主权的决心。

热点资讯 11.10
国芯科技:创新成果公布,自主研发的量子安全芯片及量子密码卡内测成功

国芯科技:创新成果公布,自主研发的量子安全芯片及量子密码卡内测成功

推出的一款高速量子密码卡,集成了CCP907T高性能密码芯片和硅臻量子随机数发生器芯片,具备高速度、安全性好等特点,可广泛应用于各种安全场景。此外,该芯片还支持多种密码算法,如SM2、SM3、SM4、AES、DES、RSA、SHA等,能有效保护用户的数据安全。

热点资讯 11.10
黄奕陪女儿度假:母女情感似闺蜜,留学英国的女儿成长中的重要时刻

黄奕女儿聚会:母女关系亲密如闺蜜,十三岁的女儿在异国求学的精彩瞬间

黄奕陪女儿度假:母女情感似闺蜜,留学英国的女儿成长中的重要时刻 黄奕女儿聚会:母女关系亲密如闺蜜,十三岁的女儿在异国求学的精彩瞬间

黄奕携女儿赴英国,母女间共享美好时光。11岁女儿继承母身材,少女般洋溢活力。黄奕忙碌工作中抽空陪女儿看展、逛街,尽享亲情时光。女儿小小年纪已有留学经历,母女共同成长为努力工作的榜样。美好时光易逝,母女离别依依不舍,期待更多家庭欢聚时刻。

热点资讯 11.10
新机再次起飞疑遇故障?网友曝波音客机引擎爆炸事件航司回应

新机再次起飞疑遇故障?网友曝波音客机引擎爆炸事件航司回应

据央视新闻报道,一架从悉尼飞往布里斯班的波音737-800型客机在起飞后疑遭发动机故障引燃机场草坪。该飞机已返航并安全降落,但乘客并未受到爆炸影响。此事已引起联邦航空局的关注,要求对波音采取更为严格的监管措施。目前,波音尚未公布何时恢复生产。

热点资讯 11.10
凯特王妃化疗后首次公开亮相,穿着黑色连衣裙闪耀全场

凯特王妃化疗后首次公开亮相,穿着黑色连衣裙闪耀全场

威尔士王妃凯特·米德尔顿在皇家阿尔伯特音乐厅举办纪念节上首度公开亮相,身穿黑色连衣裙,佩戴罂粟花。这是她接受癌症治疗数月后首次公开露面。虽然女王因“季节性胸部感染”身体不适而缺席,但她和丈夫均出席了本周末的纪念活动。王室成员出席了音乐会,并参与了致敬仪式。凯特佩戴罂粟花参加活动,威廉王子为其助兴。这场活动旨在表彰英国和英联邦武装部队社区的牺牲与贡献。

热点资讯 11.10
旭旭宝宝直播带货年收入高达数十亿元:揭秘其背后的商业策略与盈利模式

旭旭宝宝直播带货年收入高达数十亿元:揭秘其背后的商业策略与盈利模式

某主播现象引起争议,其中一位主播涉嫌造假出售商品,并引发业界疑虑。部分顶级主播年收入数十亿,但质疑是否为真。旭旭宝宝证实直播带货属实,利润可达20%。网红平台需监管,保障直播行业健康发展。

热点资讯 11.10
LOL电竞赛事更新:新规则震撼出炉,LPL再遭打击,欧美区有望崛起

LOL电竞赛事更新:新规则震撼出炉,LPL再遭打击,欧美区有望崛起

最近关于电竞圈的话题很多,我们看到S14世界赛的热度非常高,但T1是实现了两连冠,也是战队第五个冠军。现在比赛已经结束了,相关话题热度也慢慢下降了,接下来最需要关注其实是新赛季。LOL新赛季规则公布了,这个新规则导致LPL再次被削弱,而欧美赛区可能将崛起,那就是可能整个英雄联盟的电竞赛事都将采用全局BP的模式。全球BP在LPL赛区已经开始,夏季赛就采用了全局BP,这非常考验选手的英雄池,如果是像这次决赛一样打满5局,全局BP就会禁用掉40个英雄。这就还没完,双方再ban10个英雄,一共50个英雄不能用。而说回这个调整所带来的影响,目前可以得知的是,我们LPL赛区可能说是被严重削弱了,首先我们赛区的选手本身就比较保守,英雄池并没有特别深。如果这个规则实行,那些偏向于绝活哥的选手可能就原形毕露了,而反观其他赛区,欧美赛区绝对是最大受益者,因为他们很喜欢整活,什么英雄都拿得出来,全局BP给了他们更多的整活理由,对此你们有什么想吐槽的吗?

热点资讯 11.10
知情者曝光:EDG俱乐部不摆烂 下赛季有望招揽顶级选手银河战舰 Meiko将回归,让粉丝们翘首期待!

知情者曝光:EDG俱乐部不摆烂 下赛季有望招揽顶级选手银河战舰 Meiko将回归,让粉丝们翘首期待!

EDG宣布重组以冲击世界赛,同时JDG解约小将仍需找出新中单人选,两队均需做好充足的准备迎接新赛季。

热点资讯 11.10
赛力斯紧急公告:关于最新产品发布的重要通知

赛力斯紧急公告:关于最新产品发布的重要通知

生前有重大改观。根据专家判断,事故车确实存在质量问题。详情请见后续报道。

热点资讯 11.10