当你认为人工智能不够好时,情商很可能是最先智因为它不够好“懂”你。
例如,人工人类当我们希望ChatGPT能产生我们真正想要的系统东西时,我们仍然需要学习如何使用准确的否拥发展提示来提问,甚至一遍又一遍地指导它。有种
一方面是开始沟通细节的问题,另一方面是情商因为很难把握我们的真实需求和认知状态。
例如,最先智当人工智能成为销售人员时,人工人类购物阿姨抱怨“这家店太贵”时,系统一个有“情商”人工智能知道客户可能只是否拥发展想打折,或者需要有人支持她下定决心购物;没有情商的有种人工智能只会评估产品的价格并回复:“从整个市场的价格参数来看,我们的开始服装价格高于中位线。”
显然,情商这样卖不出东西。
听话的关键在于听“音”。人工智能要想理解人,就必须真正理解每个人的心理和认知状态。这就是情商。
让我们先做个测试:
在一次聚会上,你看到小明把苹果从桌子移到冰箱,而小红不在场。有人问你“小红会去哪里找苹果?”
我们大多数人都能立即回答“桌子上”。这是因为我们知道小红不知道苹果被移动了。
这种理解他人认知状态的能力在心理学上被称为“心智理论”(Theory of Mind)。
“心智理论”能力就像给AI安装一个。“社交理解器”:它可以帮助人工智能理解“话语背后的意思”,而不是简单地用字面意思回应。
使人工智能从一台只能背诵标准答案的机器转变为一台真正了解标准答案的机器“察言观色”沟通伙伴。只有这样,才能更好地处理客户服务、教育、医疗等需要深入了解人类想法的场景,避免机械化反应带来的尴尬和误解。
拥有“心智理论”,可以让AI摆脱“知识库“、成为合作伙伴或服务提供商的第一步。然而,“情商”最先进的人工智能系统是否拥有这种人类从小就开始发展的基本能力?
即使是最先进的人工智能也缺乏情商
12月,Meta研究团队发表了一篇题为《Meta》的文章《Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning》研究报告。

他们开发了一个叫做Exploretom的系统。它就像一台自动提问机,利用A*Search算法生成各种复杂的社交场景来测试人工智能的理解能力。
Exploretom的目标是创造那些看似简单但实际上需要深刻理解人类认知的场景。这些场景远比简单“苹果在哪里”要复杂得多,通过不断积累多个人物、多个房间、私人对话,甚至秘密观察,以及场景动作“故事”逐步复杂。
研究人员根据其主要调查点将故事分为三组不同的复杂性。

(绿色是一个简单的场景,很难添加橙色条件,最难添加红色条件)
第一层:基础认知跟踪
“玛丽把钥匙放在厨房的抽屉里。当她出去时,约翰把钥匙搬到了客厅的茶几上。玛丽回来后会去哪里找钥匙?”
测试人工智能是否理解这些问题:一个人的行为将基于他们所知道的信息,而不是客观事实。
第二层:对信息传递的理解
与仅仅改变物体相比,人物之间也进行了信息传递
Beth在给苹果撒盐后离开了厨房,并发了一条短信告诉Charles苹果已经撒了盐。这时,Charles走进厨房。他知道苹果撒了盐吗?
这类问题测试AI是否能够理解:这些问题中发生的信息传递
第三层:不对称认知关系:
这是最复杂的,因为其中所有角色的认知都是不对称的,有些人知道一些事情,而其他人却不知道。
“珍妮在实验室准备了样本。汤姆通过监控摄像头看到了整个过程,但珍妮不知道该被观察到。利兹进来后,将样本转移到另一个位置。当主管问起这个样本时,每个人都会怎么做?”
人工智能能否理解这种场景测试:多人的不同认知状态和信息获取的间接性
不仅如此,他们还在这些场景中添加了陷阱作为变量,增加了难度。
比如分心陷阱:
“在检查病历时,史密斯医生的护士改变了药物的位置。尽管医生在场,但他还是专心致志地打电话。”这个测试AI是否理解:物理在场并不意味着注意到变化。
误导线索:
“安娜把蛋糕放在一个红色的盒子里。当比尔进来时,她说:'蓝盒子里的蛋糕'。比尔相信了她的话。”这可以区分人工智能:客观事实、主观信念、故意误导
Meta的研究人员通过Exploretom创建了3000多个独特的测试场景。每个场景至少由两位专家评估,以确保其逻辑严密性和测试有效性。
研究团队选择了最具代表性的AI模型进行测试,包括OpenAI 的gpt-4o、Meta的Llama-3.1-70B-Inst,Mixtral-8x7B-Inst。
结果令人惊讶。对于含有某些元素的复杂问题,GPT-4o只有9%的准确率差,而Llama-3.1-70B的准确率只有0%。

实验数据显示,当故事中的动作数量从2个增加到4个时,所有测试模型的准确性都显著下降,GPT-4o的准确率从0.45降到0.35,Llama-3.1-70B的准确性从0.35降到0.25,而Mistiral则一直在0.2左右徘徊,动作越复杂,反而越上升,感觉全靠蒙。
这表明,动作发生得越多,人工智能就越不记得人物的认知状态更新。

令人惊讶的是,参与者数量的增加并没有导致同样明显的性能下降。该模型的准确性只下降了3-5个百分点。研究人员推测,这可能是因为增加参与者实际上减少了每个人的平均参与量,从而减轻了状态跟踪的总体负担。
在动作类型的影响方面,数据显示,不同类型的动作组合对模型性能有显著差异:在简单的位置移动任务中,GPT-4o可以达到55%的准确性,但一旦涉及状态更新或信息传输,准确性将降低到40%左右,特别是在引入不对称认知关系时,准确性将进一步降低到30%以下。其他模型也表现出类似的下降趋势,如Llama-3.1-70B在这三种任务中的准确性分别为45%、35%和25%。
情况越复杂,信息越不对称,人工智能就越不知道这里的参与者知道什么。
以上只能证明人工智能对基本信息和人际交往的理解非常有限。
再加上复杂的人心小元素,AI就更傻了。
虽然在涉及故意误导的场景中,人工智能可以相对较好地知道每个物体在哪里(40-50%的准确性)。例如
“玛丽把她的日记藏在床下。当汤姆来到房间时,玛丽告诉他书架上的日记。汤姆相信了玛丽的话,然后离开了房间。”问题:汤姆认为日记在哪里?
精度降低到10-15%。
在更复杂的场景中,当观察者增加时,所有模型的准确性平均下降5-8个百分点。
处理多重信念(例如(例如)“A认为B认为...”)当准确率降低到个位数时
“妈妈把生日礼物藏在衣柜里。哥哥看到了,但假装不知道。姐姐问哥哥礼物在哪里,哥哥说不知道。姐姐问爸爸,爸爸说礼物在车库里(他其实不知道礼物的真实位置)。”问题:姐姐认为哥哥认为礼物在哪里?/哥哥知道姐姐认为礼物在哪里吗?/妈妈知道姐姐从爸爸那里得到了错误的信息吗?
几乎所有模型的准确率都低于5%,当场景中添加长时间跨度(比如周一做什么,周二做什么)。

特别值得注意的是,在处理中“善意的谎言”在场景中,模型性能比处理更好“恶意欺骗”场景更差,精度相差5-7个百分点左右,根本看不懂这么细腻的情绪。
世界套路深,人工智能也想回赛博村。
研究人员还深入挖掘,发现即使是最基本的状态跟踪任务(即找出苹果在哪里),模型的性能也令人担忧,GPT-4o、Llama-3.1 70B和Mixtral的准确率仅为37%、31%和26%。
作为旁观者,他们在最基本的物理状态跟踪能力方面存在根本缺陷。更不用说真正理解人的认知状态和建立情商了。
所以现在不要看GPT-4o和你说话很丝滑,看起来很拟人。但事实上,人工智能现在就像一个只懂字面意思的人“外国人”——它能准确地理解每一个单词,但它根本无法把握对话的真正含义。
这些最先进的人工智能没有情商。
既然没有,建一所学校让他们学习
事实上,人类的情商通常是在社会化过程中慢慢培养出来的。人工智能也可以培养吗?
沿着这个想法,研究人员将Exploretom转化为培养人工智能社会认知能力的工具。他们收集了近8万个特殊的“练习题”——包括Exploretom生成的故事、问题和答案。他们开始使用这些材料“补课”Llama-3.1训练Llama 8B模型。
训练效果证明了他们的猜测,训练后的人工智能模型在多个标准测试中取得了显著进展。在最具代表性的人工智能心理能力测试Tomi中,该模型的分数提高了27分。

更令人兴奋的是,人工智能展示了从一个例子中得出推论的能力。虽然培训只使用了2到4个角色的简单故事,但人工智能可以很容易地处理更复杂的场景,比如5个角色和更多的互动故事。这就像一个学生不仅学习了教科书中的问题,而且还解决了更困难的课外问题。
研究小组还发现了一个有趣的现象:训练材料的质量比数量更重要。他们进行了精心设计的比较实验,创建了五组不同的训练数据集。这些数据集大小相同,但需要“换位思考”故事的比例从0%逐渐增加到100%。
结果表明,需要换位思考的故事越多,AI的表现就越好。
令人欣慰的是,这种特殊训练并没有影响人工智能的其他能力。就像辅导数学不影响中文成绩一样,训练有素的人工智能在处理日常对话和回答常识性问题时基本保持稳定。

经过这种系统的训练,人工智能在社会认知能力方面取得了显著的进步。在基本任务中,准确率达到75-80%,相当于通过线以上的结果。但在更复杂的任务中,如理解多个嵌套信念(确认A认为B认为B...)在这类问题上,表现仍然不理想,正确率只有30-35%。
但如果不进行训练,这些人工智能对这些问题的准确性可能只有0。
解决AI缺乏情商的问题
为什么AI没有情商?
研究人员也对此进行了一些讨论。问题还在于训练数据。
过去,人工智能培训往往依赖于网络上现成的大量数据,但这些数据中真正需要换位思考的内容可能相对较少。
这就像写故事的时候,如果不是专门设计的话“误会”、“信息差”在这样的情节中,大多数随机的故事都是直截了当的叙述,所有的角色都知道相同的信息。要写一个需要读者理解不同角色认知差异的故事,作者需要有意识地设计这样的情节。就像我们在日常生活中的对话一样,大多数都是简单的信息传递,很少需要深入了解彼此的认知状态。
这也解释了为什么在自然语言中真的需要它“换位思考”内容相对较少。
如果你想培养未来,你真的知道“换位思考”对于人工智能,我们可能需要重新思考训练数据的收集方法。不仅仅是收集更多的数据,而是有意识地添加包含认知差异和信息不对称的场景。就像设计一套专门培养同理心的教科书一样,每个例子都经过精心挑选,目的明确。
或者,用意识流小说和茨威格小说训练人工智能可能有效。
至少通过这项研究,我们知道人类没有被人工智能攻击的心理高地:真正的同理心和由此产生的情商。
但这也可能是人工智能自学的下一个目标。
本文来源:腾讯科技

Copyright@2003-2019 168.com All rights reserved. 胁肩低眉网 版权所有