深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍

2024-03-29 热点资讯关注公众号

谷歌DeepMind发布的《Long-form factuality in large language models》论文宣布，大模型通过采用搜索增强事实评估器（Search-Augmented Factuality Evaluator, SAFE）技术，能够识别并纠正自身在开放话题事实性的响应中产生的事实错误，这一发现引发了一场关于人工智能标注者饭碗命运的大争论。本文指出，该方法不仅解决了长期以来困扰大型语言模型的问题，也为如何提高其准确性和可控性提供了新的策略。同时，研究者还提出了一种将F1分数扩展为长篇事实性聚合指标的新方法，旨在平衡响应中支持的事实数量与目标信息的有效度，这无疑推动了长期语言模型事实性评价的改进和发展。此外，这篇论文的发表让公众重新审视了传统标注系统与大模型的边界，引发了人们对人工智能标注未来趋势的关注。在未来，这项成果可能会引领更大规模、更复杂的语言模型应用场景，进一步影响社会认知和科技发展领域。
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

谷歌DeepMind的《Long-form factuality in large language models》论文揭示：事实准确性提升新突破
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

近年来，人工智能领域的技术创新如潮水般涌动，尤其是以大型语言模型为代表的技术发展日新月异。谷歌DeepMind发布的一篇重要论文《Long-form factuality in large language models》，展示了大模型在解决事实准确性问题方面的重大突破，并对如何提高其准确性和可控性提出了新的策略。
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

在这篇论文中，DeepMind团队通过构建一种名为“搜索增强事实评估器”的机制，成功地提升了大型语言模型在开放式话题事实性评估中的表现。这个评估器基于深度学习的强化学习技术，能够利用用户的历史查询数据来训练模型，使其能够在多种开放话题上产生准确且合理的回答。以下是我们对其原理和技术特点进行的深入解析：
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

1. 搜索增强事实评估器：此工具的核心是搜索引擎优化算法，它通过对历史语料库中的问题与答案进行大量的匹配和学习，使得模型在后续面对特定主题或事实时能更加精准地抽取相关信息。在文章阐述中，Google表示，“通过使用自动生成问答的方法，我们可以创建一个搜索增强事实评估器，该评估器可以在训练过程中不断更新和补充模型的知识库，从而使模型对于复杂的开放话题具有更高的事实准确性。”
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

2. 元知识检索与分类：Google提到，搜索增强事实评估器首先会对输入文本进行预处理，包括去除无关词汇、量化实体和词性标注等步骤，从而获取基础的知识图谱。然后，模型将提取出短语和句子的关键概念和属性，并对这些信息进行元知识检索，找出与这些概念相关的其他相关事实。这些挖掘到的信息被分类归档，用于构建泛化性能评估的多标签模型，例如基于全真-似真值的逻辑推理框架（简称LTL-GAMMA）和基于标注一致性（Accuracy）的先验知识分配（Accuracy-CNN）网络。
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

3. 事实发现与修正：一旦理解了原文的上下文和问题类型，搜索增强事实评估器会运用监督学习方法训练模型在这些场景下生成客观、合理且正确的结果。首先，模型从已知的开放话题事实集合中抽取出与每个题目相关的大量事实。接着，评估器会评估模型在每次输出事实后，根据用户提问的形式及意图判断其是否准确地满足了真实事实。如果某个回答不符合真实情况，模型就会对其进行调整或修正，直到输出的结论完全符合实际情况为止。
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

4. F1分数扩展：为了探索更为全面和可靠的事实准确性衡量方式，Google还提出了一种新颖的评价指标——F1分数扩展。F1分数是一种综合评估模型生成结果质量与提供信息准确性之间的综合指标，其中F1得分越高，说明模型在描述问题和生成答案时越接近于真实，反映出其预测能力。Google定义的F1分数扩展公式为：
"深度学习揭示：标注事实胜过预训练大模型，全开源成本仅为人类的20倍"

F_{1 \text{Score}} = 2 * \frac{\text{True Positive Rate} + \text{False Negative Rate}}{\text{True Positive Rate} + \text{False Positive Rate} + \text{False Negative Rate}}
\]
其中，“True Positive Rate”指模型生成的正确答案中有多少事实吻合原文问题；“False Negative Rate”则指模型错误地给出答案但并未直接否定原文问题的现象所占的比例；“False Positive Rate”则指误答问题但却忽视原文事实的现象所占的比例。基于这一拓展的F1分数，结合可调量“True Positive Rate”，可以实现长篇事实性聚合指标的动态调整，保证模型在识别支持的事实数量的同时保持目标信息的有效性，从而达到平衡响应中支持的事实数量与目标信息有效度的目的。
随着《Long-form factuality in large language models》论文的公布，研究人员引入了全新的评估策略，一方面挑战了传统标注系统在事实准确性方面的局限性，另一方面为深入研究大规模、复杂语言模型在事实性评估方面提供了有益启示。这标志着AI领域的事实性评价正在向更高层次、更深层次迈进，为人类社会理解和应对日益增长的数字化世界中的知识需求带来了新的可能和挑战。
未来，随着大数据、云计算、自然语言处理等相关技术的发展，应用广泛的信息型生成任务将进一步普及，如新闻报道、产品说明书、科学报告等领域都将面临涉及各类事实问题的应用场景。这一研究成果为这些应用领域的实时验证、智能辅助决策以及持续改进提供了重要依据，同时也为潜在的监管机构、企业界乃至学术界敲响了事实性评价的警钟，提醒各方在推进AI技术进步的同时，务必警惕其在提高精度的同时所带来的潜在风险和道德挑战。
综上所述，《Long-form factuality in large language models》这一标志性研究成果无疑开启了人工智能事实性评价的新篇章，开启了更加广阔、深奥和引人深思的人工智能伦理探讨之旅。预计在未来的长河中，这一方法将在新闻报道、科学研究、政策制定等诸多领域发挥重要作用，为人类社会的认知结构和社会治理带来深远的影响。我们期待着这一前沿技术在更广阔的现实场景中展现出更多强大的生命力和应用价值，共同迎接一个更高效、更智能、更具可信度的数字时代。

上一篇:换季咳嗽找上门，怎么办？
下一篇:英媒：四种常用药或有助延长寿命

更多更酷的内容分享

猜你感兴趣

20倍计算量的卓越优化：使用大模型预训练数据并节省20倍计算量

随着计算能力的发展和应用范围的拓宽，深度学习模型已经在许多领域取得了突破性成果，但在大规模预训练语料质量和可扩展性方面存在不足。ProX框架提出，通过语言模型自动生成优化程序，能够提高预训练语料的质量，并适用于广泛的领域。 2. 简介 ProX框架是由上海交通大学生成式人工智能实验室、上海人工智能实验室和新加坡 Sea AI Lab 合作研发，旨在提升大规模预训练语料的质量。它通过语言模型自动生成优化程序，适应多样化的样本特征，实现了大幅提升了预训练语料的质量。 3. 使用场景 ProX框架为在小规模模型训练中超过以往多个人工设计的规则过滤方法提供了新选择，并在多种标准化测试数据集上表现出良好的性能。这表明ProX可以作为一个高效的工具，可用于大规模预训练语料质量的提升和定制化领域的解决方案。 4. 具体优化为了进一步提升模型性能，ProX还将继续优化数据质量，探索更加灵活的接口，以覆盖更多专用领域，并降低推理代价。这表明ProX在未来有望更好地服务于人工智能研究和实践。 5. 愿望和目标希望您能通过将ProX应用于您的工作，充分发挥其优势，推动相关领域的研究进展。欢迎您随时向我们投稿或联系报道。感谢您的关注和支持！

热点资讯 09.29

全新预训练异构大模型集成学习框架DeePEn的详细介绍

据腾讯混元大模型生成，哈工大和鹏城实验室的研究人员提出了免训练异构大模型集成学习框架DeePEn，它能够提高大模型的性能边界，解决大模型训练成本高且容易出现过拟合的问题。DeePEn采用的是相对表示理论，构建统一相对表示空间，并能在多个公开数据集上取得显著提升。该研究表明，DeePEn是通过融合多个模型输出的概率分布来实现更深层次的模型协作，具有广泛的应用前景。

热点资讯 07.21

字节跳动官方声明：回应实习生破坏大模型训练传闻

字节跳动回应谣言：涉事实习生恶意干扰商业化技术团队模型训练，经核实并未涉及字节跳动大模型等业务，已辞退实习生并交由行业联盟和所在学校处理。

热点资讯 10.19

阿里CEO蔡崇信谈AI训练与学习，强调仅需3-4年可超越人类博士

阿里巴巴集团董事长蔡崇信于上周在上海举办的全球中国峰会期间与中国投行摩根大通首席执行官Kam Shing Kwang进行对话。蔡崇信详细阐述了人工智能的重要性，认为这是一个非常重要的领域，需要坚持并不断发展。同时他也表示，在中国云计算和人工智能领域都有强大的竞争力。此外，他表示虽然人工智能的外行人可能觉得它很复杂，但实际上是将其与其他技能（如生物科学、数学和心理学）相比的深度和广度进行比较的结果。阿里巴巴公司强调了人工智能在多个垂直领域的应用，包括电子商务和云计算。在竞争激烈的市场中，阿里巴巴一直追求创新，并将技术用于公司的核心业务中，以创造价值并对股东产生回报。

热点资讯 06.01

貂蝉皮肤即将更新：仅一天时间却引发巨大争议与变化？

“王者荣耀”官方宣布正式服将于1天内更新，新版本引入澜、明世隐、王昭君三大版本之子，但已有一段时间的游戏时间为玩家提供了阅读资源。其中，王昭君的表现仍然稳定，在辅助玩法上略有削弱，未来输出玩法可能会加强。此外，游戏中的法师角色数据也在发生变化，以应对最新情况。这一消息引发了玩家对法师分路变化的关注，部分玩家认为法师的整体实力将得到提升。但同时，也有玩家对此表示担忧，认为数值变动有限。

热点资讯 11.22

华为将公开出售其部分业务以换取大量现金，业界震惊：尊界公司有危吗?

华为将在广州车展上推出的尊界S800备受关注，成为备受瞩目的两款车型之一。自尊界S9销量不佳后，华为已经连续注册多个商标，显示即将推出新款车型的决心。此外，除了尊界外，华为还推出了其他新产品，但在与小米、极氪等企业的竞争中逐渐失去了领先地位。从目前看来，华为在试图通过不断的创新和拓展来提高品牌力，但也在消耗自己的品牌力。

热点资讯 11.22

小米SU7集体故障：官方回应

小米SU7自动泊车撞墙撞柱事件引发热议。多地车主反映车辆在自动泊车功能出现故障，造成不同程度的撞击及刮蹭损伤。其中一名车主表示，车辆在去年购买的MIUI 11系统中启用此功能，但从未遇到过此类问题，但在今年4月的首次使用过程中就出现了碰撞。对于此事，小米汽车官方已承认存在系统Bug，并愿意承担全部维修费用并提供免费维修车辆和代步出行补贴。不少网友对此表示认可，但也有人担心自动泊车功能会成为新的安全隐患。目前已有媒体报道了多起此类事故的发生，提醒用户在使用自动泊车功能时要格外小心。对于此事，业界人士也发表看法，认为自动泊车虽然便捷，但对于驾驶员来说仍需保持专注，注意识别停车位置，以防事故发生。

热点资讯 11.22

小鹏的未来：蔚来的挑战与机遇

蔚来发布2024年第三季度财报，数据显示蔚来共交付61855台车辆，创单季交付历史最高纪录。然而，整体来看，蔚来的亏损仍然严重，达到50.597亿元，亏损额同比增长8.1%。由于蔚来推出的新势力产品乐道L60逐渐走红，蔚来本季度交付指引和营收指引均创下了历史新高。然而，蔚来并未能保持目前的增长势头，今年蔚来已经亏掉超过150亿元，处于新势力榜后五的位置。因此，李斌在财报会议中强调了蔚来要将更多精力集中在两个品牌乐道和萤火虫上，并期待在未来实现全面盈利。值得注意的是，随着乐道的销量逐渐提升，蔚来卖车单价将进一步下降。尽管如此，蔚来的成绩仍未稳定，排名仍处于下风。在此背景下，李斌提出蔚来应继续保持对未来的规划与挑战。

热点资讯 11.22

10月豪华品牌销量盘点: BBA与理想问界齐升！双雄争艳的豪华车市场：一个月度销量排名更新

"金九银十"结束，豪华车市场竞争激烈，奔驰、宝马、奥迪仍是主流，但自主新势力异军突起；销量前三分别为奔驰、宝马、奥迪，其中奔驰以40.8万元单车利润高居首位，其余两强依次排在第三、第四位；自主品牌中，理想、问界两款车型表现优异，理想售价30.9万元，问界售价37.6万元；腾势车型主打科技感和体验，但高端价位也达60万。一线豪华品牌面临考验，市场份额下滑；雷克萨斯、沃尔沃仍处于领先地位。

热点资讯 11.22

平安银行市值跌超2600亿：行业格局变迁引关注

平安银行自2012年成立以来股价经历多次下滑，尤其在高管失联、频繁被处罚等负面新闻曝光后更是雪上加霜。股价由最高时期的2166.71元/股跌至目前的4258.03元/股，仅上涨了50%左右。由于股份有限公司以高股息著称，其股价调整幅度也较大。可以看出，平安银行的股价波动与工商银行的股价走势形成了鲜明对比。过去三年，平安银行的股价一路下跌，累计跌幅超过60%，导致总市值缩水近2600亿元，这也反映了行业整体的疲软态势。同时，平安银行过去的高管失联事件，以及近年来频发的高管被处罚情况，进一步加剧了投资者对平安银行未来前景的担忧。因此，投资者应谨慎对待平安银行的股价变动，并考虑是否适合购买该公司的股票。

热点资讯 11.22

杉杉股份控权权摇摆：嫡子落败，200亿市值背后的故事

过遗赠），那么公司所有股东就有权利分享创始人遗产。这样，企业的控制权就会按照一定的规则过渡到下一代。这种制度对于保护弱势群体和企业稳定发展具有重要意义。尽管如此，关于代际传承是否存在狭隘的问题，以及职业经理人或亲属传承是否会带来积极作用等，仍然是值得深入探讨的问题。随着社会的发展和科技的进步，我们需要不断探索和发展更适合现代企业的传承方式。

热点资讯 11.22

欧元创两年新低！经济数据严峻，欧央会议或升息应对疲软情况

周五下午，欧盟经历了一次两年来最低的欧元水平。交易员预计特朗普的全球关税计划将破坏欧洲经济增长并迫使欧洲央行采取更加激进的降息措施。欧元区PMI数据恶化导致欧元跌至今年最低水平。欧央行在下月进一步降息50个基点的可能性高达50%。此外，市场担心特朗普总统可能会对欧元区依赖出口的经济体实施严厉的关税打击。荷兰国际集团预测明年欧元将继续贬值。市场正担忧天然气价格和乌克兰地缘政治关系等因素对欧元的影响。高盛则认为，如果应对关税冲击的政策措施出现问题，欧元可能会继续贬值。未来是否会大幅降息还是未知数。然而，鉴于欧元区陷入衰退的局面，决策者需要权衡，以便做出是否应该加快宽松步伐的决定。

热点资讯 11.22

亿万富翁之路：一次重要的机遇与挑战 - 从普通到百万富翁的转变过程

比特币价格接近十万美元，但作者错过成为亿万富翁的机会。他与瑞波币擦肩而过，认为两者技术都不佳。

热点资讯 11.22

上海财富公司巨亏：实控人被拘押，数千平方米办公场所人去楼空，疑高管疑似涉嫌非法转移财产

华设资产是一家在上海规模500亿的财富管理机构，近期突然暴雷，实控人失联，总部停止运营。投资者购买的华设资产产品无法兑付，部分投资者报案。此外，高管在产品爆雷后离婚，疑恶意转移财产。然而，对于其是否存在停止运营、总部是否失联跑路等问题，《华夏时报》记者拨打了华设资产总部官方电话，但均无人接听。同时，有4家分公司出现注销或已注销状态，且这些分公司实控人均为华设资产实控人姜玮彦。投资者因此在选购财富管理产品时需注意机构是否有发行产品的资质，以及产品的风险与收益特性。最后，建议投资者降低投资预期，理解并接受投资中的风险，从而做出更为理性的投资决策。

热点资讯 11.22