claude2实测,“gpt-4平替”表现如何?
清元宇宙 元宇宙应用 2023-07-21 17:06:04 · 热度999

来源:清元宇宙

作者:黄安妮

排版:骆伟玲

图片源于q仔互联网冲浪所得

7月12日,ai算法研发公司anthropic发布了他们最新的模型claude 2。该公司宣布,目前地区在美国和英国的用户可以免费从其网站与语言大模型claude 2对话。有不少媒体将claude称呼为“chatgpt最强的竞争对手”。

 

值得注意的是,anthropic是谷歌投资的初创企业,而anthropic是由一群在gpt-3大模型发布后,从openai离职的员工创立的。今年3月,创立仅两年的anthropic便推出了claude大模型,是他们发布的第一个重要版本。

claude 2距离上一个版本的发布不到4个月,有了巨大的提升。据介绍,anthropic在原有功能的基础上进行了许多改进,与上一个版本相比,claude 2在文案、数学、编码和推理方面都有质的飞跃,让claude 2的实用性、易用性都远超gpt-3.5,甚至直逼gpt-4。

在最新的chatbot arena大模型(llm)评分上,gpt-4是目前综合能力最强的大语言模型,而claude 1.0版本仅次于gpt-4,也就意味着此次claude 2对标的就是openai的付费产品gpt-4。

对于gpt-4相较,claude2有以下几个主要的优点:

可免费注册使用(目前仅开放在英国和美国地区)

支持10万 token

可以直接导入文档进行总结

知识库截止时间是2023年初

今天就一起来感受一下claude 2在升级后的新功能吧!

claude2实测,“gpt-尊龙凯时ag旗舰厅

在使用chatgpt时,文本框内输入的文字是有限制的,gpt-3.5最多一次性处理4096个token,gpt-4-32k最多能处理32768个token。

并且根据官方发布的博文来看,claude 2的上下文窗口从9000个token扩大为10万个token,相当于一次性可以输入7.5万个字。这意味着claude 2可以读取数百页的文档材料供进行解读和总结。

例如,官方称他们将《了不起的盖茨比》的全文文本喂给claude-instant(72k token),并修改了一行,说nick carraway先生是“在anthropic从事机器学习工具工作的软件工程师”。并要求它找出不同之处时,模型只花了22秒内就给出正确答案。

一位b站up主alex_day对claude2和gpt-4进行了文档总结与分析测试。首先博主会给ai上传一个图文pdf报告,让ai对报告文档进行总结。

可以看到上传文件后claude马上就可以总结出报告的内容,并且语言也比较精简。

而在gpt-4上还不能直接上传文档,需要借助到插件功能。并可以看到gpt-4似乎不支持这类型的pdf,无法读取信息,没有办法做总结。

随后博主换了csv格式的文档,可以看到claude 2和gpt-4都有做出分析,并给出建议。

显然在上传文件的格式上,claude 2是占了优势的。

anthropic称计划未来将至少将其扩展到至少20万token。这说明claude 2能够处理的token上限应目前应该是所有类ai语言大模型产品中的巅峰水准。

anthropic为了测试claude的多语言功能,选择了覆盖200多种语言的翻译基准flores 200来评估claude 2的多语言翻译能力。

可以看到,claude 2继承了claude的多语言能力,提供了非常强大的多语言支持能力,其可以翻译超过43种语言,并且23种常用的语言翻译达到了“可以理解”的水平。

anthropic还称claude 2在律师考试的多项选择部分获得了76.5%的分数,而claude 1.3获得了73%。

同时,官方还对claude 2进行了美国研究生入学考试(gre)测试,在gre考试中,与申请研究生院的大学生相比,claude 2在gre阅读和写作考试中的得分高于90%,在定量推理方面达到了考生的中位数水平。

面对网友提出经典的“鸡兔同笼”问题,claude 2也可以顺利求解。

但当提问一道逻辑题时,可以看出claude 2有简单的数学计算能力,但是推理能力就稍微欠缺了,而gpt-4能够避开这样的思维陷阱。

根据anthropic官方表述,在编码能力方面,claude 2表现出熟练程度的提高。它在python编程测试codex humaneval上的得分从 56% 上升到 71.2%。根据官方的实例,可以让claude 2生成代码,帮助我们把一幅静态的地图变成可交互的地图。

首先让claude 2分析已有的地图静态代码。

随后让claude 2生成产生动态效果的代码。

最后把生成的代码复制到后台,就可以生成一个可互动的地图。可以看出claude 2具有很强的编码能力。

此前anthropic的创始人们离开openai,就是因为在大模型的安全性的理念不一致。anthropic称,他们一直在迭代以改进claude 2的基础安全性,使其更无害,减少产生攻击性或危险输出。

anthropic进行了一个内部red-teaming evaluation(红队评估),使用自动测试对大量具有代表性的有害提示对模型进行评分,同时还会定期手动检查结果。在此评估中,与claude 2相比,claude 1.0在提供无害性响应方面好3倍。

总体来说,claude 2的流畅度以及稳定性是还不错的。也有很多人认为claude 2和gpt-4还是有差距的。但与gpt-4需要付费,并需要依靠很多小插件来说,单枪匹马且免费的claude 2可以说是很香了。相信伴随着大模型发展升级和数据积累,未来ai语言大模型也许会达到与人类语言自然交互的高度。

你看好claude 2吗?

参考网站:

https://www.anthropic.com/index/claude-2

model-card-claude-2.pdf (anthropic.com)

文章推荐
1
2
清元宇宙
0
0
网站地图