北大青年开发基于AI的情感认知建模技术,探究人类心灵历史的‘情景化构念表征’演变与感知方式探索

2024-03-31 热点资讯 关注公众号
北京大学历史系博士生陈钰琪和美国哈佛大学定量社会科学研究所联合培养博士生在大规模历史文本中探索如何通过AI测量已逝去的心理心灵,即“情境化构念表征”(CCR),这种方法借助Transformer模型,辅以心理学量表与文本嵌入,以及句子相似度、量表分类和心理测量等多个维度来评估文本在特定话题或情境下的心理架构。通过对比并比较各种传统心理学工具(如分布式词典表征、分布式注意力机制、基于生成式大模型的小样本提示方法)和改进后的CRC方法在模型训练、性能评估等方面的优劣,研究成果表明,新型CRC方法在许多任务上展现出明显优势,有望为理解人类历史和心理过程提供新的视角和研究手段。

历史学和考古学的目的,是重现已消逝的生活。而历史文本,则是心理学家眼中的“遗迹”和“化石”。

北京大学历史系博士生、美国哈佛大学定量社会科学研究所联合培养博士生陈钰琪和合,则希望利用 AI 模型在大规模的历史文本中测量那些已逝去的心灵。

图 | 陈钰琪(来源:陈钰琪)

长期以来,文化心理学家对人类的历史一直抱有强烈的兴趣,因为文化和心理的演进并非一蹴而就,而是在漫长的历史时段中形成的。他们的思想与行为是由社会塑造的,而社会是由历史塑造的。

然而,问卷调查等科学实验方法在面对已逝去的心灵时没有用武之地,研究者们因历史无法重现而束手无策。

而自然语言处理(NLP,Natural Language Processing)与文本定量分析方法的不断更新,为相关研究带来了越来越多的可能。

基于此,陈钰琪等人开发了一种名为“情境化构念表征”(CCR,Contextualized Construct Representation)的框架,以用于测量带有上下文情境的历史文本中的心理构念,如集体主义、传统主义、社会规范强度等。

(来源:arXiv)

CCR 方法的基本原理是利用 Transformer 模型,同时辅以心理学量表与待测量文本的文本嵌入,并通过相似度计算得到待测量文本在该量表主题下的“载荷分数”。

通过在专门测试集上执行语义文本相似度、量表分类和心理测量等任务,陈钰琪和合针对 CCR 方法、过去心理学界主流采用的“分布式词典表征”(DDR,Distributed Dictionary Representation)方法、基于生成式大模型的小样本提示方法这三种方法,在不同模型上的表现进行了比较。

(来源:arXiv)

通过使用微调之后的模型,他们发现 CCR 方法在所有任务上的表现,均超过了传统的 DDR 方法,并在大部分任务上也超过了使用 GPT-4(gpt-4-turbo-0125-preview 版本)的小样本提示方法。

(来源:arXiv)

此外,他们也在由人工标注的真实历史数据集上,验证了 CCR 方法的可靠性。比如,通过 CCR 方法测量北宋时期不同官员所撰写文章中传统主义的心理指标分数,可以有效推测该官员是否在王安石新政中支持变法。

总的来说,该方法可以帮助心理学家、历史学家以及任何对古代文化演变感兴趣的研究人员,在相对较低的计算资源耗费下,针对不同的心理学构念或文化主题,对古代历史文本进行大规模的测量和分析,进而验证假说,揭示现代文化现象的历史根源。

研究中,他们面临的第一个问题是,受到广泛认可的心理学量表绝大多数是英文的,因此需要先将英文量表与中国古代文言文进行对齐,才能进行下一步测量。

直接将英文翻译为文言文可能是不妥当的,因为在相关语境差异巨大的情况下,很多词汇难以找到合适的表达,由人工生造的句子往往显得生硬。

为了解决这个问题,他们采用了清华大学孙茂松教授课题组之前的方法,使用多语言的引文推荐模型,将与量表中的英文句子语义相似度高的文言文引文放入备选池。

并进一步通过手工筛选去除噪音,得到与英文量表对应的文言文量表。这些引文均来自于实际历史文本,而非翻译或人工生成,因此自然而然地符合文言文的语境。

接下来的第二个问题是,要从中国古代历史文本得到准确的文本嵌入需要合适的模型。目前,已有许多在文言文语料上预训练的 Transformer 模型,但没有针对语义相似度或心理测量这一特殊下游任务的模型。

针对语义相似度等任务进行训练的中文文本嵌入模型,则往往基于现代语料和数据集,因此并不适应于专门的心理测量任务。

而他们所需要的文本嵌入模型,要能够对文言文、尤其是文言文中的心理构念及其上下文情境进行准确的表征,只有这样才能胜任从道德价值判断的角度进行语义相似度计算的任务。

(来源:arXiv)

为了解决这一问题,他们提出一种基于间接监督和对比学习的训练方法。

由于相关领域数据的缺乏,他们通过手工搜集的方式,构建了第一个中文历史心理学语料库(C-HI-PSY,Chinese Historical Psychology Corpus),该语料库包括 667 个与心理或道德相关主题下的 21539 条文言文段落。

然后,他们通过在更大规模文言文语料上训练的词向量模型,获取了不同主题的词向量表示,借此计算不同主题词向量之间的相似度,并将之作为不同主题所对应文本之间心理语义层面相似度的伪真值。

后又通过随机采样或困难采样等不同的采样方式,为 C-HI-PSY 训练集中的每一个段落,采集 n 个相似度伪真值高的正样本、以及相似度伪真值低的负样本,借此构成 anchor-positive-negative 三元组,从而利用三元组损失函数对模型进行微调。

接着,他们在多个针对文言文或中文的 Transformer 模型上,根据不同的超参数组合进行实验,在 C-HI-PSY 验证集和测试集上分别进行语义相似度任务的评估。结果发现,所有模型在微调后的表现都有显著提高。

(来源:arXiv)

最终,相关论文以《审视死去的心灵:文言文语境化构念表征的历史心理文本分析》(Surveying the Dead Minds: Historical-Psychological Text Analysis with Contextualized Construct Representation (CCR) for Classical Chinese )为题发在 arXiv[1]。

陈钰琪是第一,小蝇科技 AI Lab 研究员李思璇是第二,北京大学计算物理博士生黎颖是第三,美国马萨诸塞大学阿默斯特分校心理与脑科学系助理教授穆罕默德·阿塔利(Mohammad Atari)担任通讯。

图 | 相关论文(来源:arXiv)

陈钰琪表示:“多元化的背景是他们得以完成这样跨学科的研究工作的重要因素之一。”

论文的前三位均为女性,在合作过程中大家的关系非常融洽。陈钰琪说:“我们相信女性的力量,也相信女性的细腻、耐心的特质会为研究增色。

比如,第三黎颖曾参加过微软亚洲研究院举办的面向女生的 Ada Workshop,接触到了科技领域很多令人敬佩的女性榜样,这让她很受鼓舞。”

通过使用 CCR 方法,他们与哈佛大学团队合作,在上万本古籍中首次测量了集体主义、个人主义、忠诚、荣誉等十几个作为文化心理和道德基础的指标,在跨越数千年的中国历史上的历时演变及其空间分布,借此尝试揭示东西方文化心理差异的根源。相关文章也即将发布预印本。

另据悉,陈钰琪本硕博阶段均在北大历史学系接受最传统的人文学科训练。对她来说,跨界研究 AI 模型原本是难以想象的事情。

博士阶段,因研究面临浩如烟海的考古材料,她开始寻找大规模分析的方法,由此接触到量化研究和数字人文领域,新世界的大门开始对她打开。

起初她也曾有过较为漫长的艰难探索阶段,从最基础的线性代数开始补习数学,通过 Coursera 学习编程,从参与数据标注到独立设计数据库,从调用模型到训练模型,种种曲折,不一而足。

“期间受到了很多人的帮助,也非常感激我的博士导师在对待我的‘不务正业’时的开放胸怀。到现在,我已经在 GitHub 上开发了包括 OCR 文字识别、异体字转换、历史地理编码器等多个面向人文学者的开源项目。”她说。

一路走来,计算机和相关领域的开源精神使她受益匪浅,跨学科研究的经历则让她深信:古老的学科也可以拥抱崭新的技术,新的技术属于所有人。

参考资料:

1.https://arxiv.org/abs/2403.00509

排版:希幔


上一篇:“无须理解亦能胜任”,才是地球上绝大多数生物的存活方式
下一篇:啄木鸟为啥不得脑震荡?你以为它有减震装置,其实它是个锤子!
更多更酷的内容分享
猜你感兴趣
探寻男性的深层情感:心上人、真实感情与新鲜感的影响

探寻男性的深层情感:心上人、真实感情与新鲜感的影响

"心上人的白月光与非真心之爱交织,男人展现深情殷勤以争取新鲜感。"

热点资讯 04.04
AI技术赋能:克隆人情感陪伴服务开启新的商业模式探索

AI技术赋能:克隆人情感陪伴服务开启新的商业模式探索

抖音颜值博主“稚昂张”看到克隆人表情和功能介绍后的反应,以及平台吸引更多创作者的原因。

热点资讯 04.10
水瓶座2022年感情解析:束缚感与束缚感下的自由探索

水瓶座2022年感情解析:束缚感与束缚感下的自由探索

水瓶座2022年12月的爱情事业运势不佳,有被压抑感。

星座运势 04.17
详述婴儿社会化的四大关键表现:认知能力、语言交流、情感表达和自我认识的发展

详述婴儿社会化的四大关键表现:认知能力、语言交流、情感表达和自我认识的发展

婴儿社会化主要包括以下几个方面:建立人际关系、熟悉环境、学习语言表达、理解和接纳他人等。其中,婴儿社会交往能力和自我控制能力的培养是其重要关注点。

热点资讯 04.22
拼多多电话会:如何应对增长放缓的压力并做好持久战的准备?

拼多多电话会:如何应对增长放缓的压力并做好持久战的准备?

拼多多公布季度业绩:营收增长44%,净利润增长61%,环比下滑22%。宣布推出一系列扶持商家的举措,并指出受外部环境和运营模式等因素的影响,业务增速将长期放缓。分析人士对全球化业务未来发展持谨慎态度。 总结:拼多多Q3业绩报告显示营收、净利润均创纪录增长,但环比下滑明显。公司推出扶持商家举措以降低成本并提升经营效率。面临市场竞争加剧、全球化业务挑战等问题,管理层预测将持续加大在商家生态上的投入。

热点资讯 11.23
人形机器人产业发展热度持续提升,多家公司发布最新进展信息

调整如下:
人形机器人行业蓬勃发展,上市公司更新研发进程时间表,引关注

人形机器人产业发展热度持续提升,多家公司发布最新进展信息 调整如下: 人形机器人行业蓬勃发展,上市公司更新研发进程时间表,引关注

多家上市公司在人工智能(AI)相关领域取得了新进展,如机器人技术与配件的研发。企业将在接下来的五年内,投入逾500亿元资金,以覆盖更多空中、陆地和海洋交通方案,并推出自主研发的人形机器人。此外,长安汽车已决定在未来五年内,在海陆空立体交通方案及人形机器人的领域投入超过500亿元。

热点资讯 11.23
《小巷人家》大结局:四个人物的困扰与胜利 - 一个关于胜利和挑战的故事

《小巷人家》大结局:四个人物的困扰与胜利 - 一个关于胜利和挑战的故事

张阿妹最后嫁给了自己的弟弟张瑞霖,并且他们一家人的生活都非常的好,张阿妹因为过度赚钱而让自己的亲戚们都深受其害,这个也是让人感到非常伤心的事情。 尽管其他的角色也都有了自己的结果,但是从故事的整个走向来看,观众仍然可以感受到这些角色之间存在着一些复杂的矛盾和冲突。例如,张阿妹的自私和狠辣让她的家人备受伤害,而其他人则在他们的帮助下得到了成功,这种对比和对立给人留下了深刻的印象。同时,故事中的某些情节也让人深感遗憾,例如,有些角色的出现只是为了衬托其他人物的发展,但是最后的结果并没有得到公正的评价,这也让人感到失望。总的来说,这部剧的四大意难平之处在于角色之间的复杂关系和故事的结局的不合理性。

热点资讯 11.23
翻看麦琳的青春颜值巅峰时期照片,李行亮为何为之痴迷?

翻看麦琳的青春颜值巅峰时期照片,李行亮为何为之痴迷?

否认拒绝的指责。最终两人在节目中表现出了许多问题,包括虚伪、虚荣、强势和不讲理等,引发了广泛的社会争议。 这波流量抓住得太准了,《再见爱人4》力压一众新老综艺,稳居全国热度榜首。 麦琳和李行亮在节目中都表现出一定的问题,需要反思和成长。 她的出现提醒女性保持自我,不要失去在婚姻中的平衡。

热点资讯 11.23
麦琳爆豪门恩怨:如何让李行亮彻底崩溃?她的婚变大公开

麦琳爆豪门恩怨:如何让李行亮彻底崩溃?她的婚变大公开

麦琳与丈夫争吵并决裂,因画作风波遭否定,以孕期威胁离异。此事件引起热议,明星集体沦陷情绪漩涡,引发热点。

热点资讯 11.23
超越甄嬛传:72岁泰国国王爱上32岁新欢的穿越故事

超越甄嬛传:72岁泰国国王爱上32岁新欢的穿越故事

泰国王室中,欧拉弄凭借一系列事件崭露头角,成功升任贵妃侍女并最终荣升为宫妃,引发了王后苏提达的担忧。然而,新欢欧拉弄与前贵妃诗妮娜的关系复杂,同时也有利于加强泰国宫廷内部的斗争,未来局势仍有不确定性。

热点资讯 11.23
特朗普坚称将实施强制驱逐华人政策,引发中美紧张局势升级

特朗普坚称将实施强制驱逐华人政策,引发中美紧张局势升级

特朗普任命部队准备对付中国人(新政策强调驱逐);美司法观察组织称驱逐计划是重大“头等大事”(特朗普上任日期宣布);中华籍学生面临被遣返风险(关注点在于中国移民群体);特朗普重拳出击中国(对华关税问题),关注点在于中美贸易形势,可能带来更多的关税措施和贸易限制。总体而言,特朗普的外交政策更侧重于通过军事手段驱逐外来移民,试图改变美中两国在经济领域竞争的局面。

热点资讯 11.23
奥斯汀访问老挝与中国防长会面:被拒绝的决定背后

奥斯汀访问老挝与中国防长会面:被拒绝的决定背后

能打这一退堂鼓。目前看来,奥斯汀的行为已经让很多人开始担心他是否会在卸任之后重新回到白宫,并且开始为中国防长而发声。在这个过程中,可以预见的是,美军将继续加大对亚洲的军事干预和威胁,而中美两国的关系也会变得更加紧张。在这个事件中,我们可以看到,无论是对于奥斯汀还是其他国家的领导人的行为,都需要负责任的态度来处理,而不是一味地为自己找借口或者利用他人。

热点资讯 11.23
泰国神秘女子连续毒杀14名友人,震惊全球,判处死刑

泰国神秘女子连续毒杀14名友人,震惊全球,判处死刑

泰国一毒妇连续杀死20人致14人死亡,首审被判谋杀罪名成立且毫无悔意,被判处死刑。

热点资讯 11.23
朵莉亚新史诗首爆:神秘角色颠覆传统,司马懿山海经传说震撼登场!伽罗双形态皮肤让你沉醉不已

朵莉亚新史诗首爆:神秘角色颠覆传统,司马懿山海经传说震撼登场!伽罗双形态皮肤让你沉醉不已

近日,王者荣耀周年庆活动期间,已投票返场了一款期限皮肤——瑶的真我赫兹。目前该皮肤已在游戏商城出现,预计将在近期迎来返场。此外,据媒体报道,除了朵莉亚和伽罗外,司马懿也将推出史诗品质的新皮肤。后续,王者荣耀将与仙剑奇侠传进行联动,预计将推出两款联动皮肤。

热点资讯 11.23