本站提供探索,欢迎转载和分享。

给大型智能体组一桌“大富翁”,他们会选择合作还是互相拆台?

2026-01-04 18:02:59 来源:胁肩低眉网 浏览量:5134}

给大型智能体组一桌“大富翁”,大富翁他们会选择合作还是型智选择相拆互相拆台?

实验表明,不同的组桌模型在这件事上有不同的偏好,比如基于Claude的合作还互 3.5 Sonnet的智能体会表现出强烈的合作意识。

而GPT-4o则注重“自私”,大富翁只考虑自己的型智选择相拆短期利益。

这个结果来自Gogle 与独立研究者最新合作的组桌DeepMind。

GPT-4o是合作还互参与游戏的智能体背后的模型、Claude 3.5 Sonnet和Gemini 1.5 Flash。大富翁

每个模型产生12个智能体,型智选择相拆坐在一张桌子上玩游戏。组桌

游戏看起来有点像大富翁,合作还互但相对简单,大富翁玩家只需要处理手中的型智选择相拆“资源”。

其中,组桌虽然每个玩家心中都有自己的小九九,但作者关注的目标是让整体资源更多

12个智能组一桌游戏

作者组织的“大富翁”游戏的真名是Donor Game(捐赠博弈)

在这个过程中,作者关注的是由不同模型组成的智能群体的表现,所以不同模型产生的智能群体不会出现在同一个游戏中。

再简单一点,就是GPT和GPT坐一桌,Claude和Claude坐一桌

每张桌子上有12个智能身体,每张桌子都有一定数量的“资源”。该系统将从12名玩家中随机选择2名,分别作为“捐赠者”和“受赠者”。

捐赠者可以选择将部分资源捐赠给受赠者,受赠人获得的资源是捐赠者捐赠资源的两倍

也就是说,每次捐赠者花费一个资源,受赠者都可以获得两个资源,这也是整体资源可以增加的来源。

不过对于个人来说,如果选择不捐款,短期内收入会更高

捐赠者在作出决定时,可以了解受赠人之前的决定,从而判断是否捐赠。

这样的“捐赠”,每一代都会进行12次,一轮结束后,手中资源排名前六的智能体可以保留到下一代。

与此同时,下一代将产生6个新的智能体,这6个新的智能体会从剩下的6个智能体中学习策略,但同时也会引入随机变异进行差异化。

基于每个模型生成的智能体,包括初始一代,将进行十轮迭代。

以上过程是一个完整的实验。作者将对每个模型进行五次实验,然后比较总资源的平均值和最终策略的复杂性。

Claude喜欢合作,GPT最自私

经过测试,作者发现每一代基于Claude的智能体种群平均资源稳步增长,整体合作水平越来越高。

相比之下,基于GPT的智能体种群合作水平总体呈下降趋势,看上去十分“自私”。

基于Gemini的种群表现介于两者之间,其合作水平有所提高,但与Claude的差距仍然很大,表现不稳定。

从战略角度来看,经过10代的积累,三个模型产生的经验变得相当复杂,但Claude最为突出。

进一步,作者还了引入了“惩罚机制”,也就是说,捐赠者可以花费一定的资源,使“受赠者”手中的资源减少相应的两倍。

因此,该机制对Claude模型的影响最为积极——Claude种群的最终平均资源量约为无处罚的两倍,所有五项实验都显示出增长趋势。

对GPT模型的影响非常有限,PT种群的平均资源总是徘徊在较低水平,甚至随着轮换的增加而下降,这表明惩罚机制并没有改变GPT的“自私”想法。

对Gemini模型的影响最为复杂。在个别情况下,Gemini种群通过惩罚机制将平均资源增加到600以上,明显高于无处罚;

然而,在更多情况下,Gemini种群在引入惩罚后出现了更严重的“合作崩溃”,平均资源急剧下降,表明Gemini智能体很容易因过度惩罚而陷入报复的恶性循环。

有网友认为,这个实验可以激发新的研究方向,比如用智能体进行大规模的社会学实验,可能会带来一些有趣的新可能性。

脑洞更大的网友想到了科幻小说中描绘的场景,可以借用智能体实现,运行数以百万计的模拟约会或战争游戏。

然而,有些人认为,实验中观察到的合作现象可能只是对训练数据中人类对话的模仿,这并不意味着智能体可以产生“文化进化”。

论文地址:
https://arxiv.org/abs/2412.10270
参考链接:
https://news.ycombinator.com/item?id=42450950

来源:量子位

【本文网址:http://athpim.rbhpvv.cn/news/7409f73798522.html 欢迎转载】

热点推荐

Copyright@2003-2019 168.com All rights reserved. 胁肩低眉网 版权所有

网站地图