新智元报道

编辑:Aeneas

【新智元导读】震惊,鹦鹉已经学会给自己的小伙伴打电话了!可别再说大语言模型是随机鹦鹉了。

大语言模型是随机鹦鹉?不,它们还差得远。

美国东北大学的研究人员发现,鹦鹉们想念自己的朋友时,会主动给朋友打视频。

LeCun转发了这篇文章,评论道:「称LLM为随机鹦鹉,真是对鹦鹉的侮辱。」


「随机鹦鹉」这个梗,出自华盛顿大学语言学家Emily M. Bender等人在21年发表的一篇论文《随机鹦鹉的危险:语言模型是否太大了?》。

随后,人们时常用这个梗来讽刺ChatGPT等大语言模型并不理解真实世界,只是像鹦鹉一样随机产生看起来合理的字句。

如今,连鹦鹉都会隔着视频交友了,与这种高级的理解力相比,LLM真是弱爆了。


鹦鹉想朋友的时候,会打电话

那么,让LeCun感慨LLM弱爆了的鹦鹉们,具体做了什么呢?

我们来看看东北大学学者联合MIT、Glasgow大学,展开的这项研究。

他们发现,当一只鹦鹉想念自己的鹦鹉朋友时,会给它打视频电话,这让它感到很幸福。


研究者们向一群不同物种的鹦鹉和照顾它们的人,展示了如何用平板电脑和手机互相打视频电话。

他们想知道,如果有选择,鹦鹉们会互相打电话吗?

答案是,它们会。

这些鹦鹉只要想,就会随时call自己的小伙伴,而且它们很明白,视频对面的,就是自己真正的鹦鹉同伴。

一位照顾鹦鹉的人说,这只鹦鹉通过视频从自己的朋友那里学会了很多技能,比如觅食、新的声音,甚至学会了飞。

用他的话说,「它只要一通话就神采奕奕,仿佛活了过来。」

一只叫Ellie的凤头鹦鹉,和一只叫Cookie的非洲灰鹦鹉成为了朋友。「都一年多了,它们还会经常聊天。」

研究者发现,鹦鹉们打电话时发出的声音,跟它们在野外时彼此交流的方式很像。比如它们会说「我在这里!」


这种发现其实并不稀奇,研究者们早就发现,凤头鹦鹉和非洲灰鹦鹉都已经表现出了与小学生相当的认知能力。它们能够通过视觉,理解屏幕中的动作。

而人气最高、最受欢迎的鹦鹉,就是最常给小伙伴打电话的鹦鹉。

没错,就是在鹦鹉中,也有社牛。


而鹦鹉们的互动模式,跟人类社会化的互动很像。

有趣的是,鹦鹉们当然很很喜欢打电话,但人类参与者也在这个过程中发挥了很大作用。

某些鹦鹉非常喜欢从人类那里得到额外的关注,还有些鹦鹉,似乎对屏幕另一侧的人类产生了依恋。


有18只鹦鹉参与了这项实验。它们的照顾者会教它们,如果想打电话,就摇铃铛。

如果哪只鹦鹉摇铃了,照顾者就会在平板电脑给它们展示出其他鹦鹉的照片,让它们选择想要call谁。

在一个时长三小时的视频会议期间,鹦鹉们会跟彼此说话,还会用喙轻敲屏幕。

如果哪只鹦鹉出现了恐惧或者攻击性的迹象,人类照顾者就会让通话结束。


18只鹦鹉中,15只坚持到了研究的最后,3只很早就退出了。

这个过程也并不像我们想的那么容易。

鹦鹉们对于选择哪些鸟当自己的朋友,可谓非常挑剔。


如果没调解好这场互动,有的鹦鹉会很害怕,有的则会暴怒,这会造成人类的财产损失——一些体型较大的鹦鹉,足以用喙将iPad撕成碎片。

不过总的来说,研究结果表明,视频通话显著改善了鹦鹉们的生活幸福感。

因为身体原因,很多鹦鹉无法靠近其他鸟类。而视频通话弥补了它们的缺憾。

两只体弱多病的老年雄性金刚鹦鹉成功配对了——此前,它们在一生中几乎从没见过自己的同类。


两只鹦鹉结下了深厚的友情,隔着屏幕,它们会一起热情地唱歌、跳舞。

如果哪一只移出了屏幕,另一只会开始大喊「嘿!你出框了!快回来!」

研究者Hirskyj-Douglas说:「这确实说明了这些鸟类的认知能力和自我表达的能力有多么复杂,多么强大。」


网友锐评:当然了

而对于LLM和鹦鹉的差距,LeCun在评论区给出了更为详实的解释。


对于LeCun的说法,众网友纷纷表示赞同。

这位网友表示,LLM当然跟鹦鹉没法比了。与数十亿年的进化相比,LLM算什么?


「AI虽然通过了司法考试,但让它发展出像鹦鹉一样的智能,仍然是遥遥无期。」


「为了模仿这些鹦鹉的行为,我们在LLM和其他AI系统方面,都还有很长的路要走。」

「但我们是否需要重新创造存在主义的配对动机和社会蜂群行为?这些是生物所需要的生物学特性,而不是系统所需要的。」


「鹦鹉是鸟类中的智慧担当。它们可以交流,但它们并没有乔姆斯基意义上的语言,不过它们可以理解彭罗斯意义上的语言。」

「猴子和类人猿也没有语言,或者说它们可能有,但它们很好地隐藏了这一点。」


「LLM让我们发现,在语言禁锢下的人类,实际上就是随机鹦鹉。而实际上,鹦鹉为彼此提供了真正的参考实践。」


有网友指路创造「随机鹦鹉」这个说法的Emily Bender的播客。在这段视频中,Emily解释了为什么我们希望ChatGPT的文本中存在意义。


为什么LLM不明白自己在说什么

ChatGPT之类的大语言模型,是否能理解自己在说什么?是否能像人类一样理解单词?

有心理学家和认知科学家对此展开了调查。


此前人们就发现,如果问GPT-3,要弄平皱巴巴的裙子,你会选热水瓶还是发夹?它选了发夹。

如果在快餐店工作时需要包住头发,用三明治包装纸还是汉堡包?它选了汉堡包。

如果需要给炉灶扇风,是选石头还是地图?它选了石头。

一名认知科学博士最近用这三个场景测试了GPT-3,它全部选错了。

为什么它会做出这么蠢的选择?因为LLM并不像人类那样理解语言。


一名心理学专家在20多年前就提出了上述场景,来测试当时语言模型的理解能力。


从一万亿个例子中,GPT-3注意到了一个单词后会更可能出现哪些其他单词。

语言序列中强大的统计规律性,让GPT-3似乎掌握了语言。因此,ChatGPT能生成合理的句子、散文、诗歌和计算机代码。

但是,GPT-3完全不明白,这些词对人类究竟意味着什么。


人类是随着身体进化而来的生物实体,需要在物理和社会世界中运作以完成任务。

而语言,是帮助人们做到这一点的工具。

而GPT-3和人类的区别是,它并不需要在现实世界中做任何事情。


单词或句子的含义与人体密切相关,包括人们行动、感知和产生情绪的能力。

人类的认知是通过具体化来增强的。比如,我们对「三明治包装纸」的理解包括它的外观、手感、重量,以及我们会如何使用它。

所有这些用途的出现,都是因为人体的本性和需求:人们有可以折纸的手,有一头与三明治包装纸差不多大的头发,以及人类需要被雇用,因此需要遵守包住头发的规则。


而这些信息,从未被LLM捕获。

GPT-3、GPT-4、Bard、Chinchilla和LLaMA等LLM都没有身体,因此它们无法自行确定哪些物体是可折叠的,或者用心理学家J.J.吉布森的说法——affordances 。

因为人有了手和胳膊,才可以用地图煽风点火,用热水瓶来铺开皱纹。

但GPT-3只有在互联网上的文字流中遇到类似东西时,才能伪造它们。

大语言模型会像人类那样理解语言吗?除非它长出人类的身体和感官,有着人类的目的的生活方式。


研究者继续向GPT-4询问了这三个问题,它答对了。

因为GPT-4没有输出它分配单词的概率,因而他们无法对GPT-4进行原始分析。他们猜测,这可能是由于GPT-4从以前的输入中学到了什么,或者它的尺寸和视觉输入增加了。

GPT-4接受了图像和文本的训练,因而能够学习单词和像素之间的统计关系。


当研究者发现,你总能构建更刁钻的问题,让GPT-4也露怯。

比如问它:底部被切断的杯子和底部被切断的灯泡,哪个更适合盛水?它会选前者。

一个可以访问图像的模型,就像一个从电视中学习语言和世界的孩子。但是和人类一样,最关键的机会是,与世界互动。


最近的很多研究就采用了这种方法,研究者们训练LLM生成物理模拟,与物理环境交互,甚至生成机器人。

具身语言理解可能还有很长的路要走,但这些多感官互动,是实现这一目标的关键。

但至少在目前,ChatGPT这类大语言模型既听不懂自己说的话,有没有知觉。

参考资料:

https://twitter.com/ylecun/status/1649670485498822656

https://news.northeastern.edu/2023/04/21/parrots-talking-video-calls/

https://the-decoder.com/why-chatgpt-and-other-language-ais-dont-know-what-theyre-saying/