谷歌DeepMind、斯坦福大学合作打造全球首个AI事实核查平台:开创智能可信度验证新时代

2024-03-31 热点资讯 关注公众号
"谷歌DeepMind、斯坦福大学合作打造全球首个AI事实核查平台:开创智能可信度验证新时代"
谷歌DeepMind和斯坦福大学研发出Search-Augmented Factuality Evaluator(SAFE)工具,通过大语言模型对聊天机器人生成的长回复进行事实核查,提供了一个有效的方法来防止AI产生错误或虚假信息。SAFE通过四步操作——将回复分割成单独待核查、修正答案、对比事实和检查相关性——对这些进行评估,并使用谷歌搜索结果进行补充审核。研究显示,SAFE在对100个争议事实的重点分析中正确率达到了76%,同时,其经济性优势明显,成本比人工注释低20多倍。
Title: Google DeepMind and Stanford University Research into Search-Augmented Factuality Evaluator (SAFE): A Step-By-Step Guide for Preventing AI Misinformation with Safety Evaluation
Introduction:
In recent years, the development of artificial intelligence (AI) has significantly advanced in terms of its capabilities to understand and respond to human language. However, as the use of AI becomes more widespread, the potential risks associated with generating false or misleading information have also increased. One such approach that aims to mitigate these risks is the research conducted by Google DeepMind and Stanford University's computer science department on the creation of the Search-Augmented Factuality Evaluator (SAFE).
Google DeepMind's Safesearch Tool:
The Safesearch Tool, developed by DeepMind and Stanford University, consists of four distinct steps that enable the evaluation of chatbot-generated responses for factual accuracy:
1. Splitting the Content: The first step in the Safeevaluator is to separate the response into individual pieces of content that need to be evaluated. This can be done using natural language processing (NLP) techniques to identify keywords, entities, and other relevant parts of speech.
2. Correcting the Answer: Next, the evaluator corrects any errors or inconsistencies in the answer, ensuring it aligns with the intended meaning of the original question. This process typically involves applying machine learning algorithms to analyze the context and linguistic features of the response, identifying areas where adjustments may be needed.
3. Comparing Facts: The evaluator then compares the original claim against reliable sources of facts from trusted organizations, such as government agencies, academic institutions, or reputable news outlets. This step involves extracting key pieces of information, extracting URLs, or obtaining secondary sources to support the accuracy of the claim.
4. Checking Relevance: Finally, the evaluator checks whether the response is related to the original question or provides additional, relevant information that could further substantiate or refute the claim. This includes checking the relevance of claims made within the context, cross-referencing similar information across multiple sources, and considering the context in which the claim was asked.
Results and Economic Analysis:
The Safeevaluator demonstrated promising results when applied to a diverse set of 100 mock trivia questions. In a comprehensive analysis of the tool's performance, researchers found that it correctly identified 76% of the disputed facts with an average accuracy rate of around 90%. This indicates a significant improvement over traditional methods that rely solely on manual fact-checking or external reference checking.
In terms of cost-effectiveness, compared to the high costs associated with hiring human annotators, the Safeevaluator offers substantial economic benefits. Since the tool requires minimal input from users, including text data and structured queries, it reduces labor requirements and operational expenses while maintaining high accuracy rates. Moreover, the ability to detect and correct errors in large volumes of text-based data without interrupting user interactions can lead to reduced customer service downtime and improved efficiency in real-world scenarios.
Moreover, the Safeevaluator has been shown to improve the accuracy of long-form text generated by chatbots, which is crucial in industries like healthcare, finance, and journalism. For instance, during the COVID-19 pandemic, automated news articles generated by chatbots were frequently cited inaccurately, leading to confusion among readers. By incorporating safety evaluations into the generation process, the Safeevaluator helped ensure that these articles remained accurate and timely.
Conclusion:
Google DeepMind and Stanford University's Safesearch Tool offer a valuable approach to detecting and mitigating the risks of misinformation in chatbot-generated responses. With its straightforward four-step process, the tool effectively separates individual pieces of content, correcting errors, comparing facts, and checking relevance, providing a robust framework for evaluating the accuracy of responses under various conditions.
As technology continues to advance, the importance of preventing AI from producing incorrect or fraudulent information will only continue to grow. The Safesearch Tool demonstrates the potential of utilizing artificial intelligence tools to address this challenge, offering a practical solution that can help maintain trust in AI systems and ensure the reliability of information shared online.

上一篇:蝌学荐书 | 人类对宇宙的好奇,从探索外星人开始!
下一篇:盐的摄入量只要不超过6克,血压就可以高枕无忧了?医生讲清楚
更多更酷的内容分享
猜你感兴趣
全球科技早参 | 皮查伊:智能手机是AI创新的关键平台

全球科技早参 | 皮查伊:智能手机是AI创新的关键平台

IOT发布AI检测工具,旨在帮助开发者识别智能设备上的漏洞,提高系统的安全性。 点评:OpenAI推出的AI检测工具将有助于开发者更好地了解他们的设备,同时也有助于提高整个行业的安全性。

热点资讯 05.10
谷歌推出通用AI智能体,陪你畅玩3D游戏,打造全新游戏体验!

谷歌推出通用AI智能体,陪你畅玩3D游戏,打造全新游戏体验!

谷歌DeepMind推出SIMA,首个能在广泛3D虚拟环境和视频游戏中遵循自然语言指令的通用AI智能体,号称可以成为玩家拍档、帮忙干活打杂。

热点资讯 03.15
斯坦福大学发布全球首份《2024年人工智能指数报告》,中国AI专利总数领先全球

2024年全球人工智能指数报告:中国AI专利总量居世界首位,展示强大创新实力

斯坦福大学发布全球首份《2024年人工智能指数报告》,中国AI专利总数领先全球 2024年全球人工智能指数报告:中国AI专利总量居世界首位,展示强大创新实力

中国主导人工智能专利,成为工业机器人主导,美人工智能投资额高,且发展前景广阔,科学家认为AI将在某些任务上超越人类,但在其他任务上无法取代人类。

热点资讯 04.17
奥特曼斯坦福大学对话实录揭示:下一代AI模型将更具威力,无需过度担忧超级智能威胁

奥特曼斯坦福大学对话实录揭示:下一代AI模型将更具威力,无需过度担忧超级智能威胁

山姆·奥特曼参加了斯坦福大学企业思想领袖讲坛,并在对话活动中分享了他的人工智能未来见解。他强调了人工智能产业的发展、对通用人工智能的追求和应对社会挑战的重要性。他认为社会应该为技术进步做好准备,尽管通用人工智能的前景可能令人恐惧,但他相信它将成为社会实现更高目标的基础。OpenAI成立于2015年,其使命是确保通用人工智能造福全人类。

热点资讯 05.02
阿里云创新应用突破,吴泳铭认为AI即将重塑世界,先知前沿技术需百万美元投资门槛

阿里巴巴CEO吴泳铭解读AI未来发展:或将颠覆物理世界,新模型的投入门槛将达到上亿美金

科技巨头马云说AI,未来互联网格局将如何?投资机遇与风险交织——吴泳铭详解未来

吴泳铭预见AI革命:万亿潜力市场等待挖掘,科技巨头巨头将如何布局AI技术?

阿里云创新应用突破,吴泳铭认为AI即将重塑世界,先知前沿技术需百万美元投资门槛 阿里巴巴CEO吴泳铭解读AI未来发展:或将颠覆物理世界,新模型的投入门槛将达到上亿美金 科技巨头马云说AI,未来互联网格局将如何?投资机遇与风险交织——吴泳铭详解未来 吴泳铭预见AI革命:万亿潜力市场等待挖掘,科技巨头巨头将如何布局AI技术?

阿里巴巴集团CEO吴泳铭表示,AI有潜力改变物理世界,提升生产力。他认为,大模型技术已具备文本、语音、视觉的多模态能力,能完成复杂指令。此外,模型推理成本指数级下降,通义千问API在阿里云百炼上的调用价格下降了97%。他预测,下一代模型竞争投入门槛将达到数十亿、数百亿美金级别。 这篇文章主要介绍了阿里巴巴集团CEO吴泳铭关于AI的看法和对未来AI发展的预测。吴泳铭认为,AI有潜力改变物理世界,提升生产力,并且预测到未来的模型竞争投入门槛将达到数十亿、数百亿美金级别。他同时也提出了对于AI技术进步的期待和担忧。

热点资讯 09.20
直播间的“月饼”现象:暴利超九成的互联网“投流游戏”平台如何应对与监管?

直播间的“月饼”现象:暴利超九成的互联网“投流游戏”平台如何应对与监管?

"小杨哥及其旗下的多款月饼产品被曝光为假冒品牌,并在多个平台上售出。这些月饼在外观上与正品月饼有很大差别,例如深色的莲蓉月饼、结节的月饼和咸蛋黄硬度过大等。"

热点资讯 09.20
小米手机逆袭:挑战苹果,下一战更激烈?

小米手机逆袭:挑战苹果,下一战更激烈?

小米手机打破苹果地位,重回全球第二;小米强调注重中低端市场的价格优势,但在高端市场仍有待突破;预计小米将在年内推出三折叠手机,并有望在年底实现顶配价格低于15000元;苹果取代华为成为全球销量第二,遭受到来自小米的竞争压力。由于疫情的影响,iPhone 16系列首销成绩并不理想,但小米仍有希望冲击更高的销售业绩。

热点资讯 09.20
黎南部真主党军事目标被攻击,军方已经采取了措施。

黎南部真主党军事目标被攻击,军方已经采取了措施。

以色列国防军击落黎巴嫩南部真主党目标,破坏其军事能力与基础设施。

热点资讯 09.20
第14号台风“普拉桑”于上海奉贤沿海二次登陆

第14号台风“普拉桑”于上海奉贤沿海二次登陆

今年第14号台风“普拉桑”今在上海沿海二次登陆,最大风力9级,最低气压995百帕。

热点资讯 09.20
AI先驱李飞飞引领空间智能转型:构建世界的模型

AI先驱李飞飞引领空间智能转型:构建世界的模型

李飞飞创立AI公司“World Labs”,致力于研究空间智能。该公司的目的是应对大自然五亿年才解决的超级难题——贝壳财经记者了解到,深度学习算法的前身——卷积神经网络算法的崛起来自于2015年,当时谷歌DeepMind成功地在ImageNet上创建了一个新的类任务,这标志着深度学习作为机器学习的一种形式得到了广泛的认可。 起因: 1. 李飞飞放弃学术界的工作,投身到AI公司“World Labs”的研发中。 2. 该公司旨在解决大自然五亿年才解决的超级难题——贝壳财经记者了解到,深度学习算法的前身——卷积神经网络算法的崛起来自于2015年,当时谷歌DeepMind成功地在ImageNet上创建了一个新的类任务,这标志着深度学习作为机器学习的一种形式得到了广泛的认可。 关注点: 1. 李飞飞创立AI公司“World Labs”以解决大自然五亿年才解决的超级难题。 2. 该公司的目标是探索空间智能,这是人工智能领域的一大关注点。

热点资讯 09.20
美公司与行业专家担忧中国在核聚变领域的崛起,挑战美国主导地位

美公司与行业专家担忧中国在核聚变领域的崛起,挑战美国主导地位

据CNBC报道,美国在核聚变领域一直保持领先地位,但在最近的几年里,中国在该领域取得了显著进展,有望在未来与美国竞争。目前,中国在核聚变领域投入超过美国,而美国在清洁能源方面正面临丧失领先优势的风险。中国在核聚变领域的快速发展引发了美国方面的担忧。此外,据报道,中国已经启动了一系列支持该领域的项目,并计划在未来几年内进一步提高该领域的投入。中国的进步将对全球核聚变领域产生重大影响。

热点资讯 09.19
台风“普拉桑”已登陆浙江岱山,中心风力10级!

台风“普拉桑”已登陆浙江岱山,中心风力10级!

今年第14号台风“普拉桑”登录浙江岱山,并预测后续将影响杭州湾地区。

热点资讯 09.19
云南永善幼儿园开学不满23天即停办拒退款,负责人称将等待‘东山再起’后再还款

云南永善幼儿园开学不满23天即停办拒退款,负责人称将等待‘东山再起’后再还款

云南永善县稚慧岛幼儿园开学23天后突然停办,原因在于拒绝退费引发家长不满。当地已成立联合工作组开展专项调查,幼师违规收费引起家长投诉。相关幼儿园家长们先前与园方签署了“特别教育协议书”,约定一次性支付三年定位费。目前,涉事幼儿园负责人为确保“东山再起”,仍未偿还剩余定位费。家长建议家长向公安机关报案,以免损失扩大。

热点资讯 09.19
究竟:传呼机竟成炸弹?全球十大厂商仍在使用!

究竟:传呼机竟成炸弹?全球十大厂商仍在使用!

黎巴勒黎巴勒利

热点资讯 09.19