今年上半年AI大模型随着Chatgpt和Midjourney的出圈爆火,迎来了属于它的Iphone时刻,很多学生都开始用AI写论文了。以至于需要用反AI的软件来区别哪个是AI写的论文,哪个是人写的。



但不知道大家有没有一种感觉,就是,有点乱。上半年发布的AI大模型太多了,至少有好几百个,有时候一次展会就有100个模型参展,太夸张了。

所以如果我现在要用AI来提升生产力,到底哪个AI模型最好用?这是个很重要的问题。

今天呢,我要给大家带来5款常见的世界顶级免费大语言模型的横向测评。



它们分别是:2022年下半年开启大模型世界流行风潮的Chatgpt 3.5,由OpenAI前员工组建的“叛忍”组织Anthropic公司推出的大模型Claude1和2,全球顶尖大厂Google推出的当家花旦Bard,以及由中国人工智能大模型的先驱者,科大讯飞公司推出的讯飞星火。

进入这次测试名单的都是免费且大家容易接触到的AI,需要付费的Chatgpt-4和没有开放公众权限的华为盘古大模型,我这次就先没放进来。如果各位喜欢这样的测评,欢迎一键三连支持一波,我之后再去要一些内部的测试权限。

这次的测试内容是三个项目,数据处理并生成文本图表、会议访谈的归纳总结、学术论文的翻译总结评价,之所以设计这三个项目,一来是这些项目我们平时用得着,由人脑去做非常麻烦耗时,二来是它们分别能体现AI的数据清洗、场景描述,对编程需求的理解,对背景资料的查询,以及文字记忆和上下文归纳总结,这些基础的能力。(完整测评过程将会在视频中放出)



好了,话不多说,让我们开始第一轮的比赛!

工作中,我们要去快速地解一个国家,一个社会或者一个行业,阅读数据是极为关键的一步。但这些数据往往非常庞杂,并且由于管理这些基础数据的单位,不是国家部门就是某些NGO,它们怎么说呢,一般都不够卷,导致数据往往以一坨翔的面貌呈现在观众面前,而吃翔的感觉非常的难受。

那能不能让AI来帮我们吃翔呢?

所以第一轮比赛的内容就是,基础数据处理并生成文本

数据采用our world in data网站中的1972~2021年各国碳排放的数据,数据链接我们放在下方,各位可以自行下载,然后复现我的操作。

可以看到有不少单元格是空白或者是0,这就很符合我们现实生活会看到的各种数据的面貌,它们通常都不规整,其中很多都是一点用也没有。

我们要求AI第一步先对于下载的数据进行清洗,删除掉没有用的部分,并且只保留2000年之后的数据。

然后完成四项任务,分别是:

由于我们最终要输出文档和图表,而这五个模型都没有多模态功能,所以我们要求它们以Python语言输出,然后我们再自己手动操作一下,得到最终结果。

事不宜迟,让我们请出第一位参赛选手,ChaGPT-3.5.

可以看到gpt3.5很好地领会了相关文案的语义,做出了相应的库的安装和调用反应。

当我们将gpt-3.5写的程序放到IDE里面运行之后,我们会发现这段程序是可以无bug运行的。稍许的一点瑕疵是我们在命令里面要求gpt进行一个碳排放的介绍,而它对于碳排放介绍显得过于简短。但是它在图片的绘制和命令运行方面是比较妥善的,没有问题。



Claude 2作为一种被很多人期望可以对标gpt-4的大模型,表现令人失望。可以看到Claude2将我的命令进行了一次解析,但是没有给出Python代码。



所以我再次明确要求它提供Python的程序,但是第一次提供的程序并不完整,只是提供了一个代码样例,所以我要求他提供完整代码。最终经过多轮调整,它提供了一个相对完整的代码。

虽然最终成功输出了word,但这个图表让人一言难尽,似乎它并没有理解我的要求而是自己乱画了一个。所以结论是,Claude 2没有完成测试任务。



同样的命令扔到Claude 1里面,也表现出了类似的情况,当我们把代码放到IDE里面运行,发现是有报错的。随后将报错放回Claude 1进行了多次的Debug后,我们发现程序依然不能运行。这意味着Claude1,它在数据处理和代码生成上都是有问题的。



第四个出场的是Bard,和Claude1类似,Bard也很快给出了全部结果,但是我们发现,它并没有为它的程序进行库的导入,这使得它编的程序是无法运行的。对这个情况进行了提示后,Bard也改正了相关代码。



但是它重新生成的代码完全没有达到我们的要求,在视频中我们可以看到python不停的报错,给出的两个表也不知所云。而当我们把python报的错误丢回Bard要求更正之后,错误依旧没法得到完整地更正。



鉴于我之前用Bard生成过一些简单的程序,是没有问题的,我想很可能是Bard关联上下文的理解力不行,尤其是在一次完成多种任务的场景下,它显然无力应对。

最后出场是讯飞星火,它在关联上下文方面的表现似乎还行,不但成功识别并导入了库,然后还给出了分步骤的代码。看起来挺像那么回事儿。



但未曾想,在执行最后的任务的时候,程序反复循环的输出了同一个内容,在最后一条明显导入了一些根本没有关联的包。可以看出,它的程序反馈已经完全失效了。所以,讯飞星火没有完成这个程序编写的任务。



第一轮比赛结束总结一下。

Chatgpt免费的3.5版本相对于其他免费版的大模型,在同时兼顾短段落语义理解和编程方面的能力是有明显的优势的,处于断层领先,虽然它目前不能输出多模态内容,但是如果我们会一点代码的话,它有极强的多模态输出潜力。所以毫无疑问,当你需要找个助手,尽快清洗数据并且在五分钟内形成一份基础报告的话,找chatgpt肯定没错。

最后我们给第一局各位参赛选手的表现打一个分,满分十分,我给Chatgpt 3.5打分9.5分就扣0.5分,毕竟说的太简略。其他几位都没有完成任务所以都不及格。(Chatgpt 9.5,Claude2 5.5,Claude1 4.0,Bard4.5,讯飞星火3.0)

大家觉得这个打分公平吗?欢迎评论区说出你的观点。

让我门进入到第二轮的比赛。

我们在工作中总是要关注行业的最新动态,而这些动态往往是以发布会,访谈和圆桌讨论的形式呈现。以我所在的科技行业为例,这些活动多如牛毛,而且很多时候会发生在凌晨,比如说苹果,谷歌或者我龙哥的发布会。

那么让我们假设这样一种场景,昨晚有一场重要的访谈,而你因为战况激烈根本就没看直播,五分钟后领导组织了会议讨论此事,能否让AI帮你快速看掉访谈内容,并且输出一个总结归纳呢?



访谈内容上,我们选取了一个大家都熟悉的名场面,被誉为“互联网史上第一约架”的“罗永浩PK王自如”的对话。由于全文太长,我们找了一个相关视频,并从3分50秒左右开始的对话节选,链接同样也放在下面,大家可以自行下载操作。

在这段视频中,王自如和罗永浩先就锤子手机的一些设计和用料的事实问题产生了激烈对峙,而后就王自如是否在故意诋毁锤子手机进一步爆发了强烈对抗。里面还出现过一些经典段子,比如,“王自如:锤子没过检测标准,oppo过了,锤子都没过最低标准。-老罗:oppo是最低标准?”

我们要求AI们对于讯飞转写的视频文稿内容回答下面几个问题:

这轮首先出场的是,讯飞星火。

我们可以看到它的整个问答环节十分流畅,很快速的就完成了回答。但是如果我们细看它的每一个回答,就可以在它的回答中明显感受到一种“中庸”的味道。



比如他会说:“我们不能简单地判断双方是否有互相指责,需要更多的背景信息和语境才能做出准确的评价。”从而避免给出倾向性很强的观点,或者在某种意义上转着圈说话。而我们看完视频是可以很明显地感觉到王自如对于相关质疑的回应是落于下风的,而且整体来说老罗并没有认为它的产品有比较大的问题。

如果从更技术的角度来说,可以说,讯飞这套模型虽然它也能提取到罗永浩、王自如的名字,也能提取到其中的一部分主题信息,但是它生成的文本量不够,上下文关联能力也不足,主题提取上面它会稍弱一点。

然后是Google的Bard这个模型,我们可以看到,对于信息的提取能力Bard在测试期间的表现可以说是略优于讯飞星火的,能够提取出包括罗永浩指出王自如是收了其他人钱才说锤子手机坏话这种关键信息。并且能在只标注说话人1、2的情况下提取出说话人是罗永浩和王自如。





但是与讯飞星火相同,它也存在非常明显的主题提取失误的问题,直接把一场针锋相对对话理解成了求同存异。而且对于整个十分钟的对话的主题提取的量也不足。说明它的主题提取模型目前来讲也是非常不好的。

如果基于这两个模型总结的结果在会上发言,那你就得开始找工作了。

然后我们来看Claude两兄弟了。

首先是Claude1,面对同样的问题,Claude1的表现明显就优于前面出场的讯飞星火和Bard。相比于那两位,Claude1的回答更加像公文,倾向于列出一个个要点来对观点进行总结。



当然Claude1在理解画外音方面依旧有所缺憾,并不能理解我们人类所感受到的那种剑拔弩张的气氛,但是已经明显脱离了中庸的词语和不太贴近原文的描述,对于交锋的观点和事实都有了一个初步符合直觉的概括。



而它的后辈Claude2在Claude1的基础上进一步提升了,最直观的一个提升体现在Claude2可以直接上传文档,然后交给大模型直接阅读,而不需要我们专门复制粘贴。Claude2 可以上传的格式包括PDF、Docx、TXT、CSV、MD、ini等多种常见格式甚至包括字幕格式和代码格式的文件等等。但是由于它不支持多模态,所以还不能看图和看视频看CAD。但这依旧是一个不小的飞跃,省了我不少事儿。

输入文档后,我们可以看到它在保留了Claude1分条归纳的基础上,不仅对于罗永浩和王自如的观点等都有比较清晰的总结,而且对于整体对话的总结也相比于Claude1,显得更加符合我们人类看过视频后的第一感觉。而两代模型都能从中提炼出罗永浩是锤子科技CEO这种比较关键的背景信息。



进一步来说,我们可以看出,Claude2相对前作,在双方情绪以及话外音的理解上有巨大进步。比如它提到了“泼大粪”是有明显贬低的意思,这一点非常有意思,因为上传的原文是讯飞语音AI转写的,里面的文字是有一些错别字的,比如“泼大粪”在我们上传AI的文档里面就是“破大粪”。虽然现在AI并不能理解“破大粪”就是“泼大粪”,但是Claude2依旧通过上下文联系的方式准确提取了它的负面内涵。



综合比较Claude1和2,从他们回答的格式和语气上看,Claude 1和2的训练逻辑是一脉相承的。两代模型都能比较准确地总结文本的表层意思,也能查询资料理解录音稿的背景,但是Claude1生成的文本有罗永浩和Luo Yonghao混杂使用的情况,也就是说它在生成文本方面还是稍有不足,一致性更低。而两代模型在联系上下文理解画外音上的表现也有很大差距,第二代拥有明显优势。

最后让我们来看下gpt-3.5.

不得不说从实测的情况看,Chatgpt3.5的表现是略低于预期的。首先是他并没有通过对于上下文的理解提取出两个对话人分别是锤子科技CEO罗永浩以及王自如这种关键信息。



对于双方的言论尖锐程度的理解,Chatgpt3.5的理解能力基本上和Claude2处于同一水平线,能够理解双方在一些问题上的对抗性。

当然与Claude2不同,Chatgpt更倾向于在不需要条分缕析地列出相关内容的时候,就选择用一段话通过自然语言的方式把它说出来。这一点体现了双方在算法训练上的不同。



总的来说,Claude2和ChatGPT3.5一样,理解这段录音文本里面的主要观点、内容以及主题是完全不成问题的,表现出了对于其他的AI大模型的显著优势。在一些关键信息推理提取方面,Claude2的水平略高于Chatgpt3.5。所以阅读并归纳长文本对话的能力,我个人的评价是:

Claude2>Chatgpt3.5>Claude1>Bard>讯飞。

进入打分环节,我会给Claude29分,Chatgpt 3.5 8.5,而Claude1 我会给到7.5分,Bard6.5分、讯飞星火6分。

大家觉得这个打分合理吗?

第三轮比赛,就是对各位AI模型的终极考验了。

在工作中,我们往往需要去建立很多私密的信息渠道,为此不惜付出大量的时间精力甚至金钱,因为研读公开信息通常不足以让我们脱颖而出,但是有一类信息除外,那就是顶级学术刊物上的论文,那是人类对于未知探索最前沿的结晶。

但问题是,论文很难读,不仅会涉及到大量我们本身不了解的背景知识,甚至由于很多优质论文都是英文的,那里面专业词汇都要一个个查,这大大提升了咖啡的消耗量,使我心跳加速气喘吁吁。

于是我有一个大胆的想法,能不能让AI来替我把论文翻译成中文,并且把内容总结给我呢?

而在论文方面,我们选取了可能是人类历史上热度最高的论文,《The First Room-Temperature Ambient-Pressure Superconductor》,也就是韩国团队发现所谓LK-99室温超导材料的那篇文章。文章的链接同样是贴在了下面。

在提取文档阶段,我们将论文转化为word,并且删除了结尾的引用文献,以方便我们的各个AI读取它的内容。但是论文里面有一个问题就是它有不少比如Bi2Sr2Cu2O8+δ这种化合物以及其他的公式符号等,AI在读取的时候是可能无法读取原格式的。甚至文章里面的表格、注释之类的都会某种程度上成为一种乱码,这会给各位AI理解文章带来很大的考验。





首先出场的还是讯飞星火,我们把文章内容先粘贴进去。然后拉到输入框的底部,会发现它和文章的最后一句话长得不一样。然后我们倒回去查,会发现那句话大概在文章略多于1/3的地方。只能读取这一部分内容是无法理解整篇文章的意思的。于是我们接续发送了后面的文字喂给AI。

现在我们就让讯飞对于这篇文章进行翻译,很遗憾第一步就G了。



然后我们让AI对这篇文章的内容,作者和说明的问题进行总结。我们可以看到这个总结的文字非常短,都是些片汤话,几乎没有太多的实用价值。这说明讯飞星火对于这篇文章的理解分析能力是不足的。它甚至无法提供关于作者的准确信息。



而进一步专门询问它第一段输入中的关键信息,比如作者名字和论文题目之类的问题,我们可以看到它已经忘记了,然后经过自己的编写,总结出了一个新的题目和作者,这就有点尬了。

接下来的测试是针对Bard,虽然输入的字数对应txt文档里面有190多行比讯飞略多,但是和讯飞星火一样,Bard依旧需要3次才能将论文的文字内容完全录入。

然后我们要求他对于全文进行翻译,虽然从反应速度上来说,它是高于讯飞星火的。但是很遗憾它并没有完全理解需求,而是提供了一个它对论文内容总结的中英对照。这可能是因为Bard有文本长度的输出限制,也有可能是因为他已经忘记了部分内容。





而当我们再次询问第一段输入的关键信息:论文名称、作者、时间的时候。很遗憾,它忘掉了,和讯飞一样Bard也开始编相关信息。同时我们可以看到他在所谓的翻译中提到了LK-99的超导性是在75K的时候达到临界温度,这一回答完全与整篇文章的主旨相违背,这也意味着我们进一步提问让AI对文章进行总结变得没有了意义。



所以我们跳到Claude 1,当我们把全文输入对话框之后,对话框提示我们的输入量还是超出了它的上限。所以我们依旧要分多次输入这篇文章。但是相比于Bard来说,Claude1的输入量更高,我们最后截取的位置大概是在原文的一半多,对应txt文件有238行。所以这次我们只要两次就可以完成全文输入。

现在我们开始对Claude1进行拷打。首先就是让它回答这篇文章是谁写的,看看他有没有忘记前面的内容,这时候Claude1的回答让我心里凉了半截,它直接回答无法判断相关标题和作者名称。这让我怀疑它是不是也忘记了第一段文章。



但是接下来要求Claude1对文章内容进行概括的结果,令我十分意外,虽然我也并不完全能看懂原文的所有主要内容,但是AI准确地提取出了包括LK-99的核心是用铜离子取代铅离子实现体积缩小0.48%,这是论文中论证LK-99超导的关键论点。虽然Claude1提到LK-99的时候,依旧说论文里认为它是一种高温超导材料,而不是常温超导,但是肉眼可见的,他对于论文全文的理解和概括准确性有质的提高。



所以我赶紧测试了一下他能不能进行全文翻译,很可惜,Claude1依旧没有实现语句的全文翻译,但是它表现出来的对于有乱码信息干扰的,论文关键信息总结能力,已经十分令人惊讶。当然AI总结的关键信息是否完全正确,就交给各位大佬来进行评价了。



Claude1的成功让我对于之后Claude2和Chatgpt3.5的王者对决充满期待,话不多说我们开测。

先上场的还是Claude2,由于它可以直接上传文档,这次我们就不用复制粘贴了,直接把原文的PDF扔进去,还是很方便的。但这就带来了一个巨大的挑战,因为我们转写的文档是删除了引文那些东西的,而原文pdf是包含全部的引用参考文献以及原来的图片的。可以说难度又高了一级。

虽然很遗憾Claude2依旧没有把全文翻译成中文,但是他已经给出了中文的全文概括。包括提到了LK-99被作者认为是一种室温超导材料,而且是在400k和常压下就可以实现零电阻、迈斯纳效应等。这种级别的信息归纳提取能力简直完爆之前的所有AI啊。



而且问这篇论文的名称和作者时候,Claude2也首次完成了回答,没有乱编。



对于这种AI,常规的问题已经不能问住它了,必须出重拳。由于这篇论文的内容已经超过了我的专业能力,我也无法给出更有参考价值的正确性判断,所以就请各位静静的欣赏它的表演吧。















虽然这里面的回复依旧可能会有不少错误,但是这些内容很多时候,已经可以达到甚至超过,多数科普文章所能给你提供信息的极限水平了。

虽然Claude2作为一种离线大模型软件,无法随着互联网信息的更新而更新自己的知识库,也没有办法对于自己的回答的正确与否做出完全靠谱的判断,但是作为一种本时代的大模型来说,Claude2的表现已经让我产生一定的怀疑,它已经能比多数人更能读懂论文了。

最后压轴出场的,还是Chatgpt 3.5。由于它只有文本输入接口,无法导入文档,我们把所有内容全部都复制粘贴过去,比较令我意外的是,Chatgpt也是一次导入成功。

那么我们就开测。首先按照惯例,我们先测试它的翻译能力。在这一点上,chatgpt表现很好,程序严格按照我们要求对文字进行逐字翻译,而不是自动跳到总结翻译主要内容的阶段。超过其输出限制的部分它也主动说明。



但是在几个问题问答之后,Chatgpt的记忆空间到达了极限,以至于他已经无法提取有关标题、作者等关键信息了。



于是重新导入文章内容,像Bard那样分段输入,覆盖下原本的对话。这次它就没有进行一个完整的翻译,而是自动进行了对文章的总结。



然后就是对于全文内容的总结测试。相比于Cluade2,Chatgpt虽然提取信息的可读性更好了,对普通人更加友好了,但是似乎提取的信息总量低于Claude2。





而在评价这篇论文上,Chatgpt表现出了一如既往的谨慎,提前做出宇宙无害声明,然后对实验现象进行了描述,强调了如果真实可靠是人类的巨大突破,但是它无法验证其真实性和科学性,发言非常安全。



对于Claude2 提炼出的LK-99的合成方法等细节,Chatgpt并没指出来。但是作为一个大模型,从读论文提取信息的角度来说,Chatgpt已经可以成为Claude2之下,第二强的AI大模型了。

又到了打分环节,由于我并不能完全判断Claude2信息的准确度,所以我给Claude2打9.5,Chatgpt3.5我给它8.5分,Claude1 7.5分,Bard和讯飞我只能都给6分。

实验清晰地表明,Chatgpt和Claude2这类顶级免费AI,已经能够快速的帮你解决常规办公,以及基础信息的处理任务了。未来如果有什么具体文字处理乃至编程上的需求,我们现在推荐的免费AI毫无疑问是Chatgpt3.5。而如果要阅读长文本乃至论文并了解其中关键信息,那我们首推Claude2。

最后我总结一下我个人的一点感受。

首先,AI大语言模型显然已经跨越了可用的门槛,它在做很多工作上的效果达到可以接受的水平,效率上更是碾压人类,所以我们一定要用起来。

比如就拿读论文来说,有个人跟我说Claude2提炼的要点并不完全准确,很多知名学者行业专家可以给出更专业的解读,那我就问他,你在所有的领域都有熟悉的行业专家吗?没有你在那里说什么?这跟慈禧太后嫌火车太吵有什么区别啊?AI与人类伴生已经是现在进行时,它只会越来越强,开弓没有回头箭,所以一定要现在就用起来。



第二点是,我十分建议大家都学一点简单的编程。在未来的很长一段时间,AI大模型都很难打通所有的软件,所有的输出格式,如果能会一点简单的编程,AI能帮你干的事将会成倍增长。

这就好比,你不知道为什么,俘获了一个中科院院士,非常厉害什么都会,并且完全供你差遣,Yes my Lord。唯一的问题是,他语言沟通出了点障碍,很多时候只能看懂手语,这时候你是不是应该学一下手语?



最后,也是最关键的问题,AI时代,人最重要的能力是什么?

那就是不停地学习。

因为在可以预见的将来,AI做事还是会有很多瑕疵,很多错误,高效利用AI是需要,基于人对于正确结果有预期的基础之上。只有这样才能实现人对于AI输出结果进行判断,并基于预期差进行修改。

我们不停地学习,学习的目标不是为了在AI的领域超过AI,而是为了实现生物智能和人工智能的高效合作。你可以把AI当成你的员工而你是老板,只有老板对于问题有清晰的认识,项目才不会跑偏。