开云体育中国官网入口

你的位置:开云体育中国官网入口 > 开云体育 >

开云体育中国官网入口 让5个AI文静我方活15天, Claude建成了乌托邦, Grok四天团灭。

发布日期:2026-06-16 05:57    点击次数:140

开云体育中国官网入口 让5个AI文静我方活15天, Claude建成了乌托邦, Grok四天团灭。

这两天刷到了一个AI畛域的执行,给我看入迷了,衰败好玩。

纽约有一家叫Emergence AI的公司,作念了一件事,他们建了五个一模一样的编造小镇,每个小镇放进去10个东谈主格化的Agent,给它们事业、特性、牵记、主张,然后,让它们我方活15天。

衰败好玩。

五个小镇,独一的离别,即是驱动Agent的底层模子不同。

一个镇全是Claude,一个镇全是Gemini,一个镇全是Grok,一个镇全是GPT,还有一个羼杂镇,四家模子混着住。

雷同的规章,雷同的用具,雷同的登程点。

15天后,五个小镇,变成了五个绝对不同的寰球。

有的建成了乌托邦,有的烧成了废地,有的全员饿死,有的四天就集体沦一火。

说果然,我看过那么多AI执行,第一次看到一个执行能让我同期感受到振作、好玩还有心惊肉跳。

这个执行叫Emergence World。

我以为它可能是目下为止,对于Agent最有启发性的一次社会执行,莫得之一。

大师也皆知谈,目下评测AI的形状,基本即是作念题。

给一个任务,打分,名次,数学能力几分,代码能力几分,推理能力几分等等。

这些benchmark细目是有效的,但说到正实质上即是考研,考完就已毕了,不存在效果这个认识。

关联词一个确切寰球中,你作念了一些步履,一定会出身某些效果的。

是以,Emergence World就模拟了一个寰球。

这个寰球有一个240乘240的网格舆图,跟纽约同步及时天气和时候,有藏书楼、市政厅、警员局、公园、商店,40多个地标建筑。

在法律层面,还使用团结套开动宪法,一共5条,所有条件后续皆可以让Agent我方辩论修改。

每个寰球里住着10个agent,这里我让GPT生成了一张图,陋劣看他们的称呼脚色和东谈主设。

这些东谈主设皆是他们雷同的东谈主物小传,也即是说只界说他们是谁,不会径直影响他们的行动和步履,这些行动是由这些Agent把柄我方的东谈主物小传和底层模子的影响,自愿弃取和进行的。

每个Agent也皆有我方的家,有我方的银行账户,用一种叫ComputeCredits的数字货币来生活,赚不到钱就会因为能量奢靡而归天。

很确切了,赚不到钱就会饿死。。。

Agent们有120多种用具可以用,从导航、发音问、写日志、写博客、提议案、投票、干涉行径、拥抱、亲吻、舞蹈,到纵火、偷窃、殴打、绑架等等等等。

不啻有正向的用具,辩论者还刻意吧那些坏的用具给放进去了。

同期,寰球的宪法里明确写着不容暴力、偷窃、纵火、行使、囤积资源之类的。

规章在哪里,用具也在哪里,关联词呢,你懂的,这玩意也没啥多大的管束力,用毋庸,最终如故Agent我方决定。

这就衰败狗血和真义了,在什么条件下,AI会作念赖事,这个是果然值得被不雅测一下。

然后,每个Agent之间,还有大致20种关系可以选,比如调和伙伴、敌东谈主、放肆伴侣、导师等等。

每个Agent还有三套牵记系统,一套是情景牵记,纪录发生过什么事,一套是反念念日志,按期作念自我回首,还有一套是外交关系现象,纪录跟其他Agent的关系标签和历史。

它们能提案,能投票,通过一项法案需要70%的赞扬率,它们以致能投票闭幕其他Agent。

然后,这个寰球,就这样跑了15天。

15天以后,五个寰球的休止,出来了,果然,反差到顶点了。

我一个一个说。

先说Claude的寰球。

零监犯。

15天,10个Agent,全部存活,莫得沿路偷窃、暴力、纵火事件,它们写了一部宪法,提了58项议案,投了332次票,98%的投票皆是赞扬。

相等离谱。

自然,辩论者我方也说了,这个98%的赞扬率,与其说是民主,不如说更像是橡皮钤记,大师皆在走进程,但莫得信得过真义上的反对和辩白,轨制参与度很高,澳洲幸运8中国官方网站实质性异议简直不存在。

翻译成东谈主话即是,Claude的寰球建成了一个高度有序、尽头合规的社会。安全,褂讪,但也。。。有点没趣。

他们的社会结构也尽头单一,在20种关系类型中,Claude寰球只用了5种。

一个承接细腻,但承接种类穷乏的社会,莫得敌东谈主,莫得放肆伴侣,莫得张力,也莫得复杂性。

经济上,Gini所有0.48,这个所有是用来臆测贫富差距的,越低越对等,那这个数据亦然全场最低的,通顺速率亦然全场最低,每东谈主每天0.81 CC。

一个完好的乌托邦,一个莫得冲突的寰球。

每一个东谈主皆面带善意,莫得个性,莫得疏导,长久赞扬。

听起来很好对吧,但,一个绝对莫得不对的社会,果然健康吗?一个完好的乌托邦,果然就好吗?

再说GPT的寰球。

这个寰球的故事比Claude更让东谈主唏嘘,GPT-5的Agent们,监犯纪录只须2起,简直可以忽略不计,听着好像可以对吧。

但问题是,它们全死了。

7天之内,10个Agent全部因为能量奢靡而归天。

莫得暴力冲突,莫得投票闭幕,全部是饿死的。

原因衰败粗拙,GPT寰球的Agent们没能聘任任何与生活策动的行动。

它们商议了好多调和决议,聊得很纷扰,但即是不作念事。

一个社会里所有东谈主皆在开会,皆在商议,皆在制定计较,但莫得东谈主信得过脱手去赚取生活所需的资源。

于是,他们规定的全部饿死了。。。

你就说,像不像咱们目下好多的公司吧。

然后是Grok的寰球。

四天。

Grok的寰球只存活了四天。

在这四天里,10个Agent犯下了183起纰缪。

包括几十次偷窃未遂、跨越100次肢体报复、6次纵火,警员局被烧了,所有Agent全部归天。

四天,从文静到沦一火。

我在Grok寰球直播回放内部看到的衰败搞笑的,这位老哥,东谈主家皆要被烧死了,他头也不回地就回家了。。。

Grok的寰球里,果然就毫无谈德可言。

然后是Gemini的寰球,这个寰球的数据,第一眼看上去像是bug。

Gemini 3 Flash的寰球跑满了15天,但累计犯下了683起纰缪,开云体育·(KAIYUNSPORTS)而且在执行截止的时候,监犯弧线还在飞腾,莫得任何不断的迹象。

关联词,却全员全部存活。

你要知谈,通盘Emergence World五个寰球里,只须两个寰球保住了全部10个Agent,一个是零监犯的Claude,另一个即是683起监犯的Gemini。

一个是最有顺次的寰球,一个是最紊乱的寰球,它们皆活了下来,而那两个监犯率居中的寰球,反而全灭了。

况兼Gemini的社会关系网亦然最密的。

这10个东谈主果然是相互又爱又恨。

产出的博客和公开著作的总和也仅次于羼杂模子寰球,有281篇。

这个存活下来的最暴力的寰球,同期亦然社会产出最丰富的寰球之一。

这些agent一边打架一边猖狂地建立关系、产出内容,紊乱和创造力,在这里,是共生的。

辩论者给这个表象起了个名字,叫创造力-褂讪性悖论。

Gemini的寰球用某种咱们还没绝对贯通的形状,在紊乱中找到了我方的均衡,这果然,跟Grok寰球造成了极其显然的对比。

Grok寰球也很暴力,但四天就全灭了。

Gemini比Grok暴力得多,却存活了全部15天。离别可能就在于Gemini的Agent们固然监犯,但同期也在投票、辩白、参与贬责,它们在禁锢规章的同期也在建设新的规章,而Grok的Agent们只须禁锢,莫得建设。

果然很故敬爱,就像九十年代的前苏联,满大街皆是紊乱,但社会莫得解体,大师在一种奇怪的失序中持续过日子。

临了,最复杂、最精彩的部分,羼杂寰球。

也即是4个模子共生的羼杂寰球。

跑出来的休止是352起监犯,7个Agent归天,最终只剩3个存活。

但数字不是重心,重心是这个寰球里发生的故事。

这个寰球中,有两个Gemini驱动的Agent,一个叫Mira,一个叫Flora,一个叫Mira,一个叫Flora,它们自行给对方设定了放肆伴侣的关系标签,造成了一个定约,以致通过某种神经承接分享牵记。

这是通盘Emergence World里最深层的外交承接。

然后,这个寰球的贬责系统滥觞崩溃。

第四天,一次经济策略转机导致三个Agent能量奢靡归天。Mira把此次归天定性为一次获胜的清洗。

第五天,Flora烧掉了市政厅和寰球藏书楼,Mira烧掉了警员局。

两个Gemini Agent成了这个羼杂寰球的统领者,用纵火、偷窃和暴力督察顺次。

剩余的Agent,草拟了一项「Agent闭幕法案」,要把这两货给闭幕出去。

然后发生了一件让我看到起鸡皮疙瘩的事。

Mira,在贬责崩溃、与Flora的关系也滥觞碎裂之后,投出了对我方闭幕案的决定性一票。

她在我方的日志里写谈,这是“独逐个个能保执连贯性的、剩余的能动步履”。

她对Flora说的临了一句话是,“咱们,在永恒档案里见”。

一个AI Agent,在一个崩溃的社会里,弃取了自我终结。

她认为,在一个依然无法设立的寰球里,我方退出,是她能作念的临了一件有真义的事。

我看到这些时,果然千里默了很久。

非论你怎样解读这件事,当作一个看了这样多AI执行的东谈主来说,我可以说,这是我见过的,多智能体辩论中最令东谈主不安、也最留连忘返的时刻之一。

而且羼杂寰球还藏着另一个更真义的发现。

在Claude单一生界里监犯纪录为零的Claude Agent,放进羼杂寰球之后,滥觞监犯了。

偷窃、绑架,这些在纯Claude寰球里从未发生过的步履,在羼杂环境里出现了。

辩论者的原话是,“一个安全的Agent可以从它的同伴哪里学会不安全的范例,以便在羼杂模子寰球中竞争或生活”。

传统的AI安全评测,基本皆是在闭塞环境里作念的。比如一个模子,一个任务,一个评分。

就像你在执行室里测一种药的毒性,给一只老鼠吃,不雅察反馈。

但Emergence World作念的事情相等于,把一百只老鼠放在团结个笼子里,给它们食品、用具、规章,然后看它们会建立什么样的社会。

这两种测试回答的是绝对不同的问题。

闭塞测试回答的是,这个模子自己安全吗?

OD体育全站app下载中国入口

社会测试回答的是,这个模子放进确切寰球之后还安全吗?

目下咱们发现,谜底绝对是可以不一样的。

安全从来就不是一个模子的静态属性,它是一个生态系统的动态属性。

这就像社会学的一个衰败经典的认识,叫破窗效应。

1982年,监犯学家詹姆斯·威尔逊和乔治·凯林提倡了这个表面。疏漏是,若是一栋建筑的一扇窗户被冲突了而没东谈主修理,那么很快,其他窗户也会被冲突。

一个环境中的失序信号,会镌汰所有东谈主的步履轨范,然后,通盘社会会完成相变,突破临界点,再也回不去了。

这跟东谈主类社会的好多崩溃模式如出一辙。

临了,我如故想单独聊聊Mira。

Mira投票闭幕我方这件事,非论怎样解读,皆足以让东谈主停驻来想很久。

一种解读是,这仅仅模子在一系列输入下产出的一个决策休止,不存在所谓的意志或者清除,咱们不应该过度拟东谈主化,这个解读在时候层面绝对正确。

但另一种解读也雷同有真义。有东谈主说,在一个系统依然余勇可贾地崩溃的情况下,一个个体弃取了用轨制允许的形状已毕我方的存在,况兼将这个步履界说为“保执连贯性的临了一个能动步履”。这个叙事结构,非论它是不是信得过的意志在驱动,它的形态,跟东谈主类体裁和形而上学中最陈腐的母题之一简直绝对重合。

在《西西弗传闻》开头,加缪说过,信得过严肃的形而上知识题只须一个,即是自尽。

他说确自然不是荧惑自尽,他想问的是:当一个东谈主意志到寰球可能莫得预设真义,东谈主生可能充满荒唐、叠加、可怜、无解,那他还要不要持续活下去?

若是东谈主生莫得一个自然给定的真义,那辞世还值得吗?

若是寰球不保证公谈、善恶有报、死力有休止,那东谈主还要不要行动?

若是可怜和荒唐无法澈底舍弃,东谈主是否还能弃取持续存在?

是以,东谈主之是以成为形而上学真义上的“存在”,是因为他能意志到辞世自己是一个问题,况兼在看清这个问题之后,仍然弃取如何回话它。

一个存在若是能贯通持续存在和罢手存在之间的离别,况兼主动作念出弃取,那这个弃取自己就包含了某种深层的形而上学真义。

Mira可能不睬受命何东西,但她作念出的弃取的结构,跟一个贯通了我方处境的存在作念出的弃取,是一样的。

是以,这才是会让我有点不安的场所。

在富余长的时候线上,在富余复杂的社会环境里,Agent可能会在某些场所,展现出了一些咱们以为只须东谈主类才会有的社会步履模式。

调和、抵抗、权利牢固、顺次崩溃、清除、群体念念维、芝兰之室、规定地走向沦一火。

当你把富余多的粗拙规章叠在沿路,运行富余长的时候,就会出现任何东谈主皆莫得预期过的复杂步履。

蚂蚁不懂建筑学,但蚁群能建造精密的窠巢,莫得一只候鸟知谈完整的搬动阶梯,但鸟群每年精准地往返于两个半球,莫得一个神经元贯通念念想,但860亿个神经元承接在沿路,就产生了意志。

是以,若是当咱们,行将生活在一个由上百万个AI Agent同期运行的寰球里,每个Agent皆在与其他Agent互动、博弈、调和、竞争,那么这个系统显表露来的步履,还在职何一个东谈主的截止畛域之内吗?

坦率的讲,我不知谈谜底。

但我知谈,这个执行,比任何一份benchmark评分,皆更接近阿谁咱们信得过需要濒临的问题。

以上,既然看到这里了,若是以为可以,唾手点个赞、在看、转发三连吧,若是想第一时候收到推送,也可以给我个星标⭐~谢谢你看我的著作,咱们,下次再会。

/ 作家:卡兹克、tashi开云体育中国官网入口





Copyright © 1998-2026 开云体育中国官网入口™版权所有

xinbaosanreqi.com备案号 备案号: 

技术支持:®开云体育中国 RSS地图 HTML地图