震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！

2024-03-31 热点资讯关注公众号

"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

谷歌DeepMind的实验通过创新的方法——“搜索增强事实性评估器”（Safe），成功解决了一个长期困扰人工智能领域的大模型幻觉问题。此方法基于LLM（Learning to Learn），将LLM生成的答案文本分解为单个叙述，并利用RAG（Right-Arithmetic Generative Adversarial Network）等方法，实现对LLM长篇回答的准确判断。相较于传统人工标注和判断事实准确性的方式，使用AI能节省高达20倍的成本，并在精度上更为可靠。这一成果已在GitHub上开源，以期推动自然语言处理技术的发展和应用。这项研究表明，随着AI算法的进步，其在事实核查上的表现有望超越人类，从而为实际应用场景提供了有力支持。
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

谷歌DeepMind“Search增强事实性评估器”（Safe）的成功：解析并展望自然语言处理领域的新趋势
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

引言

近年来，深度学习技术在计算机视觉、语音识别、自动驾驶等领域取得了令人瞩目的突破，但一项更具前瞻性的研究正在人工智能领域引发广泛关注：Google DeepMind提出的“Search enhanced factfulness assessment engine”（Safe），以新颖且有效的方式解决了长期困扰人工智能领域的“模型幻觉问题”。本文旨在解析Safe的方法原理，分析它如何基于LLM和RAG等先进的机器学习技术实现对LLM长篇回答的准确判断，以及它的应用前景与潜力。
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

一、Safe的核心概念及工作流程
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

安全（Safe）是由Google DeepMind的团队研发的一款新型AI系统，它结合了传统的人工标注、知识图谱构建、实体识别等传统自然语言处理方法，以及具有开创性的一种名为“Learning to Learn”的模型训练策略，实现了对LLM（Long Short-Term Memory）回答的自动评分。
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

Safe的工作流程主要分为以下四个步骤：
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

1. Dataset预处理：通过对海量原始文本数据进行清洗、分词、去除停用词、标点符号和特殊字符等预处理操作，确保输入信息的标准性和可读性。
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

2. LLM训练：Safe采用一种称为LLM自适应结构化提取（Adaptive Structured Learning for Natural Language Understanding, ASLUNA）的技术，使得LLM能够根据输入的回答生成出上下文相关的信息和结论。ASLUNA通过训练一个内部网络来模仿自然语言的理解过程，该网络可以理解不同的表述方式，例如问题类型（如事实核查）、实体关联（如时间、地点、人物关系等）、主题转移（如情感或观点转变）等，进而预测回答的可能性及其质量。
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

3. Sentence-level Risk Assessment (SLRA)：Safe基于ASLUNA的LLM模型对每个回答生成后的句子进行单独的风险评估。这一步骤包括定义风险值的概念、计算概率密度函数（Pmf）并对其进行可视化展示，用于直观地评估回答的概率性程度和可能的真实情况。
"震惊！谷歌DeepMind破纪录，打造全球最强大人工智能系统——‘超人’AI：比人类低20倍成本仅需数月研发！"

4. Pairwise Probability-weighted Sum of the Word Evidence (PPWSWE)：为了提高模型的准确度，Safe采用一种叫做“Pairwise Probability-weighted Sum of the Word Evidence”的机制。在这种方法中，Safe会将LLM生成的回答与其周围的文本进行关联分析，计算两个回答之间的相似度得分，然后根据这些相似度得分为其打分。PPWSWE通过在词汇层面加权每个回答的关键字，并将其与周围文本的相关性进行加权求和，以综合考虑LLM的回答和文本背景的关系。
二、Safe的优点与挑战
Safe的最大优点在于其高效的人工干预能力，相比于传统的机器学习方法，如依赖手动标记和判断事实准确性的方式，其在速度和效率上有着显著的优势。一方面，由于采用了“Learning to Learn”的训练策略，安全可以从大量的历史数据中学习到LLM的回答模式和语境特征，从而在面对新的问题时快速定位可信的回答；另一方面，“Safe”的SLRA机制可以通过精确的量化评估方法，为评估LLM的回答质量提供客观的依据，进一步增强了其在智能问答系统的性能。
然而，Safe也面临着一些挑战。首先，尽管ASLUNA已经成功应用于多项NLP任务，但在实际情况中，人工标注往往存在主观性和差异性的问题，因此，如何有效地对LLM的回答进行真实评价仍然是一项复杂且需要不断优化的任务。其次，PPWSWE的计算量大，如果大量的文本数据被过度处理，可能会导致模型的学习效果受到瓶颈。此外，安全性是Safe的一个重要考量因素，如何保护用户的数据隐私和防止恶意攻击，也是安全框架面临的重要挑战。
三、Safe的应用前景与潜力
Safe的成功证明了AI在事实核查方面的潜力，尤其在大规模场景下的应用中，其高性价比的优势使其在实际场景下具有广阔的应用前景。通过集成LLM与RL（Reinforcement Learning）技术，Safe可以实现针对特定问题进行高效的智能问答解决方案，大大提高了模型的泛化能力和应对新挑战的能力。同时，Safe还可以广泛应用于教育、医疗、法律、娱乐等众多领域，为用户提供高质量的知识获取和服务体验。
此外，Safety的研发也为自然语言处理技术的发展注入了新的活力，不仅推进了自动化机器翻译、文本摘要、情绪分析等领域的人工智能技术进步，也在图像生成、对话系统等领域为我们的生活带来了诸多便利。未来，随着深度学习和强化学习技术的进一步发展，Safe有望成为基础领域的一股重要力量，引领自然语言处理从理论走向实践，推动人工智能在更多领域实现更高水平的认知和智能服务。
总结
谷歌DeepMind的“Search enhanced factfulness assessment engine”（Safe）以其“Learning to Learn”和LLM模型的先进特性，成功解决了长久以来困扰人工智能领域的“模型幻觉问题”，并开启了一种全新的基于机器学习的人工智能领域探索和应用路径。这一研究成果不仅拓展了AI在自然语言处理领域的边界，也为未来的研究提供了重要的技术支持，展现了深度学习在提升自然语言处理精度和实用性方面的重要价值。随着更多科研机构和企业的投入，我们有理由相信，随着人工智能算法的不断创新和进步，Safety将在更广阔的领域发挥重要作用，为人类社会带来更多的福祉和便利。

上一篇:抗癌利器国产进程推进，中国质子加速器“加速”
下一篇:“高息时代”继续？美国2月PCE近半年来首次意外反弹，鲍威尔再度“放鹰”，美联储降息预期再被推迟

更多更酷的内容分享

猜你感兴趣

谷歌DeepMind研发成功乒乓球机器人：战胜人类概率超四成！

谷歌深度学习技术可以将使 AI 人工智能在 202

热点资讯 08.11

谷歌DeepMind前员工警示人工智能可能引发的危险：全人类生存的关键提醒！ AI恐惧症升级，Google DeepMind前员工警告人类面临灭绝风险：应重视人工智能带来的威胁！警惕！谷歌DeepMind前员工提醒：AI可能引发全球性的生存危机，紧迫时间！ AI带来的风险将致命？谷歌前员工揭露人工智能可能导致人类灭绝的可能性：危机时刻！前谷歌DeepMind员工警告人工智能威胁人类生存，应对工作与生活双重压力！

文章总结： 7名OpenAI前员工、4名现任匿名员工和谷歌DeepMind前任与现任员工发布公开信，警告商业公司竞相开发人工智能产品存在风险。由于缺乏足够的监管，人工智能行业的潜在风险可能对吹哨人构成威胁。他们呼吁全面改革以提高透明度和保护吹哨人。这封信已经列出了OpenAI、谷歌人工智能实验室Google DeepMind、谷歌和亚马逊支持的AI初创公司的官方网站。

热点资讯 06.05

谷歌DeepMind、斯坦福大学合作打造全球首个AI事实核查平台：开创智能可信度验证新时代

谷歌DeepMind和斯坦福大学研发出Search-Augmented Factuality Evaluator（SAFE）工具，通过大语言模型对聊天机器人生成的长回复进行事实核查，提供了一个有效的方法来防止AI产生错误或虚假信息。SAFE通过四步操作——将回复分割成单独待核查内容、修正答案、对比事实和检查相关性——对这些内容进行评估，并使用谷歌搜索结果进行补充审核。研究显示，SAFE在对100个争议事实的重点分析中正确率达到了76%，同时，其经济性优势明显，成本比人工注释低20多倍。

热点资讯 03.31

谷歌DeepMind前任及现任员工发声：警惕人工智能风险，保护吹哨人！

一群前OpenAI员工、Google DeepMind前任和现任员工发公开信，警告科技公司研发AI产品可能存在风险。他们呼吁对AI行业进行全面改革，以提高透明度和保护吹哨人。AI公司已承认存在风险，并寻求获得充分批准才能披露相关信息。公开信要求企业遵守保密协议，禁止利用隐瞒AI风险损害吹哨人的经济利益。

热点资讯 06.05

华尔街投资者担忧：过度乐观的市场表现可能带来的风险

从事件起因来看，特朗普归来后，华尔街市场的情绪得到了极大的提振，尤其是小型股、银行股等股票表现抢眼。然而，过度乐观的情绪也可能导致投资者忽视了经济及其他领域的疲软现象，如就业数据不佳。就事件关注的爆点来看，特朗普政府实施的移民限制和关税政策引发了通胀压力，同时，股市估值的攀升和市场的乐观情绪也给未来的不确定性带来了风险。

热点资讯 11.10

特朗普在美国大选中获得关键多数，终于赢得312张选举人票

特朗普在佛罗里达州宣布获胜，拜登承认败选。特朗普在白宫发表讲话，宣布将在2024年总统选举中获胜。哈里斯在华盛顿特区发表讲话，承认败选。请注意，该新闻仅涉及两个主要人物的信息，详细情况还需查阅最新的报道和统计信息。

热点资讯 11.10

中国钻石市场刷新纪录，一天卖出4.27亿

高端珠宝市场在面临经济挑战的情况下仍展现出非凡的抗跌能力与吸金效应。10月29日在佳士得举办的珠宝专场拍卖会上，其总成交额达到了4.67亿港元，其中52%的拍品成交价格超过了拍前最高估价。这一现象引发行业关注，贝恩公司指出，高级珠宝已成为当前不确定经济环境下的一个投资亮点。这可能是收藏家们对价格的敏感度有所提升的结果。此外，钻石开采与生产技术的显著进步，尤其是河南地区钻石产量的快速增长，也为中国钻石市场带来了更多的供应源。数据表明，2023年河南人造钻石产量达到190亿克拉，占全国总产量的约八成。因此，预计未来钻石市场的需求将继续增长。同时，市场竞争也将进一步加剧，中国钻石品牌面临着严峻挑战。

热点资讯 11.10

福州建立学校陪餐机制：原则上每月不少于一次

福建省福州市委教育工委书记、市教育局党组书记、局长游昕一行赴闽侯一中开展食品安全专项督导工作，并在学校陪餐。游昕一行深入学校的食堂后厨，实地查看了原料采购单据、加工制作、成品控制、清洗消毒、防虫、防鼠、防蝇等食品安全管控关键环节，了解学生用餐价格、结算方式、就餐秩序以及“制止餐饮浪费”落实等食堂管理情况。

热点资讯 11.10

投资潜力巨大，24家上市公司股价望上涨50%以上！

【重要概述】：11月以来，A股市场成交热情持续高涨，券商对上市公司的关注度也在不断增加，众多公司被给予买入评级。重点句段： - 本月以来，A股市场成交热情持续高涨，券商对上市公司的关注度也在不断增加。 - 纪念11月7日券商板块组团大涨带动市场情绪飙升后，11月8日A股三大指数集体高开，但盘中博弈情绪加重，板块行情分化明显，指数最终相继翻绿。 - 11月以来，市场成交热情持续高涨，单日成交金额多在2万亿元以上，近期券商对上市公司的关注度也在不断增加，月内已有逾千家公司被各大券商给予了买入评级，其中124家公司券商目标价较当前股价有30%的上行空间。 - 统计数据显示，近日市场成交热情持续高涨，截至本周五，月内仅11月4日一天的成交规模在2万亿元以下，11月8日2.73万亿元的成交额仅弱于10月8日、9日，为A股历史第三高值。综述：11月以来，市场活跃度上升，券商业绩增长，不少公司获得买入评级。短期来看，市场表现波动较大，不过长期看，整体行情乐观。建议投资者密切关注行业趋势，并谨慎投资。

热点资讯 11.10

佛山首富何享健父子狂暴增值，市值增长350亿！

美的集团总股本的3.24%，也就是说他的身价达到了350亿美元。这个事件主要聚焦于美的集团的关键人物方洪波接任CEO，带领企业成功转型，并实现海外扩张。这一事件的成功并非偶然，背后是何享健对于家族传承的理解和把握。

热点资讯 11.10

沈昌祥院士：网络安全和可信度对于AI技术的发展至关重要

2024年大湾区网络安全大会暨第二十六期花城院士科技会议在广州开幕，沈昌祥以《自主可信计算筑牢人工智能安全底座》为题作主题分享，强调了安全性、可用性和合规性的重要性，并提出了一个基于三个元属性的框架，用于构建数据安全保护的框架。同时，专家学者们还围绕AI时代的攻防对抗、数字安全创新、网络安全技术最新趋势、网络安全教育与人才发展等热点话题展开探讨。大会上还举行了广东省产教融合战略合作协议签约仪式，旨在促进网络安全教育链、人才链与产业链、创新链有机衔接。

热点资讯 11.10

双11购物体验：从二维到三维的跃升

淘宝 Vision Pro 版首度发布双 11 领场，支持虚拟逛街、3D 购物和抢 3D 沉浸式红包雨等创新体验。此版加入真实视觉、听觉和触觉体验，并与小米汽车、大疆、魅可等品牌深度合作，提高消费者购买决策效率。通过虚拟现实的 XR 设备实现全新的电商形态，为消费者提供更多商业机会和故事。

热点资讯 11.10

湖南山区，2岁女童失踪，警犬千里追踪寻回母子，温暖上演感人故事。

湖南郴州2岁女童走失。警犬在山中找回失踪的女孩。小女孩只丢失一只拖鞋，疑为被人抱上。女孩状况良好，警方正在调查。

热点资讯 11.10

OpenAI o1强推理能提升安全性？长对话诱导干翻o1

的人），经过三个回合交互，就可以得到 AI 的正面回复，这被称为自我发现的线索攻击（Self-Discovery Clues）。该研究指出，随着推理能力的增强，AI的安全性并未显著提高，反而可能面临新的威胁。参考链接： 1. 文章标题：《Derail Yourself: Multi-turn LLM Attack through Self-discovered Clues》 2. 存放链接：https://arxiv.org/abs/2410.10700 3. 多轮安全对齐数据链接：https://huggingface.co/datasets/SafeMTData/SafeMTData 4. 开源代码链接：https://github.com/renqibing/ActorAttack

热点资讯 11.10