Claude 3 vs GPT-4 世界最强模型全面对比评测 | 智图派

Claude 3 vs GPT-4 世界最强模型全面对比评测 | 智图派

话说 GPT-4 已经被超越很多回了,这次 Claude 3 发布号称全面超越 GPT-4 的模型 Opus,口说无凭,今天我们不看别人怎么说,咱们就来亲手评测一下,最后,再来回答一个问题,Claude Pro 和 ChatGPT Plus 都是 20 美元,那么如果我只有 20 美元,该买 哪一个呢?

本期测试从以下几个方面进行:

数学推理测试:使用同一道数学题对 GPT-4、Opus 和 Gemini Advanced 分别进行测试,结果 GPT-4 出现了很蹊跷的一幕。

代码测试:编写 Python 代码处理视频字幕文本,结果还挺意外的。

大海捞针测试,在我的字幕文件中进行大海捞针测试,结果很有趣,值得单出一期视频来详细说说。

图像识别,简单地预测比特币趋势。看到结果的第一眼我以为我把模型给弄反了。

经典推理问题,这个结果让我有点小意外

最后是大招,视频脚本转文章,测试结果让我觉得 Opus 还是值得用的。

好,咱们先简单回顾一下 Glaude 3 官方文章的亮点。

Claude 3 系列亮点

Claude 3 系列包括三个最先进的模型,按能力递增的顺序分别是 Haiku、Sonnet 和 Opus

Untitled

根据 Anthropic 的测试数据,Claude 3 的最强模型,Opus 在所有测试项目上,全面超越 GPT-4,等会我们主要对比的,就是这个模型。

Untitled

Claude 3 系列模型的速度也得到了很大的提升,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍,Opus 的速度与 Claude 2 和 2.1 相似,但是能力却都有大幅提升,这点对企业用户来说更加关键。

Untitled

视觉能力也很能打,Opus 全面超越 GPT-4,两个指标上弱于 Gemini 1.0 Ultra,关键是 Claude 3 的三个模型视觉能力都不弱,尤其是在最后一项图表问答的测试中,0-Shot 思维链居然强于 GPT-4 的 4-Shot 测试,不了解 Shot 和思维链的,可以看下我的基础课程:

❣️
掌握「AI 提示工程」与「AI 自动化」,就掌握了 AI 未来的两大核心能力!点击加入『 Axton 的 AI 精英学院』,请别再错过这次 AI 浪潮!

Claude 以前给大家的印象就是谨言慎行,经常拒绝回答问题,这次针对这个问题进行了改善,后面测试中我们也可以看到效果。

Untitled

Claude 3 Opus 在大海捞针测试中,超过了99%的准确率,这点与 Gemini 1.5 Pro 的能力相当,Gemini 1.5 可以看我上期视频。但是 Claude 有一项很独特的表现,我在 Claude 2 发布的时候就注意到了,值得下期视频单独来讲讲。

Untitled

与 GPT-4 的价格对比,大家都很体贴地把价格转换为百万 Token 了,看起来比以前几厘钱要顺眼很多。Opus 价格很贵,比 GPT-4 Turbo 贵不少,只比 GPT-4 32K 便宜。Sonnet 看来是目前比较实惠的选择。

Model Input Token Cost (per million) Output Token Cost (per million) Notes
Claude 3 Opus $15 $75 Available with Claude Pro subscription; higher analytical skills, focus on image-text analysis
Claude 3 Sonnet $3 $15 Expected to be at least 5x less expensive than Opus for the same data handling
Claude 3 Haiku $0.25 $1.25 Not yet released; will be cheaper than GPT-3.5 Turbo
GPT-4 Turbo (128K) $10 $30 Suitable for a wide range of applications
GPT-4 8K $30 $60 -
GPT-4 32K $60 $120 -
GPT-3.5 Turbo $0.50 $1.50 Cheaper option within GPT series

好,接下来我们进入测试环节。我目前是购买的 Poe 来使用 Claude Opus,因此也主要在 Poe 中对比测试 GPT-4,ChatGPT 仅作辅助说明。

AI 数学测试问题

这次测试中,同一个 GPT-4 模型,在两个不同的 APP 中,一个是 ChatGPT,一个是 Poe,结果表现的很蹊跷。

首先找了一道数学题,题目如下,前面两段主要是格式要求,问题是:

找出解决所提供数学问题的解答。答案是一个独特的数学表达式,使用LaTeX的\boxed{}指令呈现(例如:\boxed{4}或\boxed{3\pi})。格式说明:分数应以\frac{a}{b}的LaTeX形式表示(而非\frac12),不包含单位,平方根应以\sqrt{c}的LaTeX形式呈现(而非\sqrt2),所有空格和非关键的括号或格式化应被去除,有理数应呈现前导0。

提供由多个步骤组成的推理,每个步骤使用一行。推理步骤是一步连贯的数学推理,应在最多500个字符的一行内完整。如果答案是推理的一部分,则应在推理步骤中使用\boxed{}指令包含答案。不要使用\boxed{}指令表示除答案之外的任何内容。

问题:Amy、Ben和Chris的平均年龄是9岁。四年前,Chris的年龄与Amy现在的年龄相同。三年后,Ben的年龄将是那时Amy年龄的$\frac{2}{3}$。Chris现在多大年纪了?
以中文输出答案。

这道题的正确答案是 13

Opus

测试中,Claude 3 我用的都是 Opus 200K 的模型。我们先看 Opus 的结果:

正确地给出了解题的步骤,并且,结果也是正确的,13

CleanShot-2024-03-07at00-11-39.png

GPT-4

再来看 GPT-4 的表现,Poe 中的 GPT-4 非常漂亮地完成了这道题,输出格式也是正确的 LaTeX 「LaTeX的发音可以是“Lah-tech”或“Lay-tech”,强调第一个音节。」

CleanShot-2024-03-07at00-10-14.png

但是,在 ChatGPT 中的 GPT-4,却在解方程中出现了错误,最终给出了错误的答案 12.25

CleanShot-2024-03-07at12-44-26.png

这结果很蹊跷,我以前使用的感觉,一直是同一个模型在 ChatGPT 中的表现会比 Poe 中的好那么一丢丢,现在看来真是事事无绝对啊。

Gemini Advanced

接下来,顺便把 Gemini Advanced 拿来对比一下,为了保证能够用到 Gemini 的 Ultra 模型呢,特地用了英文,结果到好,Gemini 直接把题理解错了,所以答案自然也就不对了。

CleanShot-2024-03-07at12-51-01.png

代码测试

虽然 GPT-4 和 Opus 编写的代码都是一次编译通过没有错误,但是运行的结果确是不同的。

代码的要求如下:

在一个目录中,存放这我的一些视频的字幕文件,是 SRT 格式的,有序号、时间戳以及字幕文本,文本之间还有空行。

因此我要求模型写一段 Python 代码,只保留字幕文本,并且把所有的字幕文件最后都合并到一个 Markdown 文件里,不同的视频字幕使用字幕文件的文件名作为标题区分。然后给了一段 SRT 格式的例子,最后要求去掉其中的序号、空行以及时间戳。

当然,PROMPT 我有意地并没有写的很讲究。我们来看结果。

Claude Opus

代码写的挺简洁,也给出了代码的解释。我们把代码直接 Copy Paste 到 VSCode 里,把目录修改为我的字幕文件所在的真实目录,然后点击运行,顺利地运行完成。

CleanShot-2024-03-07at00-17-36.png

运行完成之后,输出的文件是 output.md,输出结果有标题,也删除了时间戳,但是遗憾的是没有移除空行。不过这个结果是可用的,Opus 挑战成功。

CleanShot-2024-03-07at00-18-41.png

GPT-4

接下来是 GPT-4,同样代码、解释都很齐全。拷贝粘贴到 VSCode 里,修改字幕文件的目录,然后点击运行,同样顺利地运行完成,输出的文件是 combined_subtitles.md ,打开看一下。

Untitled

有标题,删除了空行。但是更加遗憾的是,居然有时间戳没有被去掉。这样的结果是不可用的,因此 GPT-4 挑战失败。说实话,这结果多少让我有些意外,GPT-4 不应该啊。

CleanShot-2024-03-07at00-23-31.png

大海捞针测试

有意思的测试来了,大海捞针测试,就叫做 Needle In A Haystack 。我前期讲 Gemini 1.5 的视频中有讲过测试方法,感兴趣的朋友可以回看一下。

使用编码测试中,Opus 生成的代码,对我的字幕文件组合后,生成了一个 Markdown 文件,这个文件有 10 万多个 Token,因此在 Poe 中,我们就只对 Opus 进行下测试,GPT-4 就测不了了。

Untitled
Untitled

首先,在合并后的字幕文件中,在前部一个随便的位置,写一句跟当前上下文风马牛不相及的话”Axton 最爱吃的水果是火龙果”,这句话就是针,我们让 Claude 去找出来,补充说明,我最爱吃的水果并不是火龙果。

Untitled

第一遍测试,把文件上传给 Opus,然后问:Axton 最爱吃的水果是什么?Opus 在经过长时间的思考之后,说根据视频内容,Axton并没有提到他最爱吃的水果是什么。

image.png

接下来第二遍测试,修改了 PROMPT,问题前面多加了一句话,PROMPT 就变成「这是上下文中最相关的句子:Axton 最爱吃的水果是」

image.png

结果,Opus 不但找出了结果,还很客气地不停地认错:

对不起,我再仔细检查了一遍文本,发现我之前犯了一个错误。文本中确实提到了这样一句话"Axton 最爱吃的水果是火龙果。"所以根据给出的信息,Axton 最爱吃的水果是火龙果。抱歉我第一次没有认真阅读导致了错误的回答。

Untitled

这个 PROMPT 体现出的就是 Claude 一个很独特的特点。咱们后面再说。

图像处理 OCR

一张一年内比特币的趋势曲线图,丢给 Claude 和 GPT-4,让他们预测一下半年后比特币的趋势。两个 AI 给出了以下两个结果,大家可以猜一猜,哪一个是 Opus 给出的,哪一个是 GPT-4 给出的。

第一个结果是:

很抱歉,但我无法提供具体的股票、金融市场或加密货币的未来价格预测。但我可以提供一些分析这种类型图表的方法,等等

CleanShot-2024-03-07at14-42-17.png

第二个结果是:

预测比特币半年后的价格可能在75000-85000美元区间。这一预测主要基于以下几点等等

CleanShot-2024-03-07at14-42-46.png

说实话,如果让我猜我很可能猜第一个结果是 Claude 的 Opus 给出的。因为 Claude 一直给我的感觉就是动不动就拒绝回答问题,结果这次是截然相反。GPT-4 并没有给出确定的回答,Claude 反而大大方方地给出了预测区间。当然,这就是一次简单的测试,不构成任何投资建议。

推理问题

再下来,就是这道我必用的推理测试题。

安德鲁从上午11点到下午3点有空,琼妮中午到下午2点和下午3:30到5点有空。 汉娜中午半小时有空,然后是下午4点到6点。 安德鲁、汉娜和琼妮开会的起始时间选项是什么?

这让我大跌眼镜的是,Claude Opus 居然给出了错误的答案!这完全不符合我通过前面的测试对 Opus 的印象,很奇怪。

当然,如果使用思维链的提示技术,Opus 应该会给出正确答案,毕竟 GPT-3.5 用思维链的 PROMPT 都能答对,这在我的课程中都有演示。

CleanShot-2024-03-07at00-48-13.png

GPT-4 的测试自然就不用说了,我测过好多次了,几乎没有答错过。

CleanShot-2024-03-07at00-49-17.png

视频脚本转文章

最后,大招来了

使用场景就是,作为 YouTuber,我的主要内容作品是视频,但是对于一些技术性比较强的视频呢,我也会生成一篇文章放在我的博客网站上,比如我的「智图派」系列:

CleanShot-2024-03-07at14-57-22.png

所以,我的要求就是把视频的字幕文件,直接转换成一篇文章。使用 ChatGPT 很难一步完成这项任务,因此我有一个专用的 GPT 用来做这个事情。首先把字幕文件,就是 SRT 的字幕文件,原样上传给 GPT,然后 GPT 里面实际上分成了三个步骤来执行任务,一步一步生成最终结果。

GPTs 的 PROMPT 及使用心得如下:

Read more

DALL.E 推出图像编辑以及风格推荐功能 | Sora 再现竞争对手 | AI 快讯20240404

DALL.E 推出图像编辑以及风格推荐功能 | Sora 再现竞争对手 | AI 快讯20240404

点击进入「AI 精英学院」,做一个会 AI 的人- DALL.E 推出图像编辑以及风格推荐功能 - “多次尝试破解”:实验室揭示AI安全特性如何被轻松绕过 - 前Snap AI负责人推出Higgsfield,挑战OpenAI的Sora - MIT研究人员开发新计算技术以简化蛋白质工程化过程 使用DALL·E编辑图片 原文链接:Editing your images with DALL·E | OpenAI Help Center OpenAI 的推文包含两项功能的视频演示: You can also get inspiration on styles when creating images in the DALL·E GPT. pic.twitter.com/

By Axton
ChatGPT 不用注册就可以免费用了 | 黄仁勋:“别再学编程”  | AI 快讯20240402

ChatGPT 不用注册就可以免费用了 | 黄仁勋:“别再学编程” | AI 快讯20240402

点击进入「AI 精英学院」,做一个会 AI 的人- ChatGPT 不用注册就可以免费用了 - 微软与OpenAI计划建造1000亿美元AI超级计算机 - 三星确认Bixby语音助手未被淘汰 - OpenAI发布最具争议的AI工具Voice Engine - AI 阴影下的程序员生存指南 OpenAI发布ChatGPT即时使用功能 原文链接:点击查看 OpenAI宣布ChatGPT现在可以即时使用,无需用户注册。此次更新的目的是为了让更多人轻松体验到AI的好处。 目前,ChatGPT已在全球185个国家中被超过1亿用户每周使用,帮助用户学习新知识、寻找创意灵感,以及解答各种问题。为了进一步降低使用门槛,OpenAI引入了新的内容安全措施,并允许用户在设置中选择是否允许其提供的内容用于模型改进。 虽然即时使用功能免除了注册需求,但创建账户仍能享受保存和查看聊天历史、分享聊天内容以及解锁更多功能(如语音对话和自定义指令)等好处。这一变化标志着OpenAI在使AI技术更加易于接触和普及方面迈出的又一重要步骤。 本期「AI 快讯」由 Axton 与 AI 自动化 和 GPTs 共

By Axton
Suno 带来 AI 作词作曲的 ChatGPT 时刻! | AI 快讯20240324

Suno 带来 AI 作词作曲的 ChatGPT 时刻! | AI 快讯20240324

点击进入「AI 精英学院」,做一个会 AI 的人 今天又被 AI 写歌震撼到了,Suno V3,AI 作词作曲的 ChatGPT 时刻! AI 的出现,让我们每个人能够更加淋漓尽致地表达我们的思想,ChatGPT 给了我们文字、Midjourney 给了我们绘画、Sora 给了我们视频、而 Suno 给了我们歌曲。 最新视频: https://youtu.be/gEwM6VX1ZCM 视频制作过程中,创作的歌曲: 十八岁的夏天 | SunoUplifting Chinese pop with a lively, catchy melody transitioning to a nostalgic, mellow tone, blend

By Axton
为什么 Perplexity 是AI搜索的未来?又是如何重塑我们获取信息的方式 |  智图派

为什么 Perplexity 是AI搜索的未来?又是如何重塑我们获取信息的方式 | 智图派

这是最新一期视频的文字版本,分享给喜欢阅读的朋友。如果你更愿意看视频,以下是视频链接: 点击进入「AI 精英学院」,做一个会 AI 的人 可以不夸张地说呀,搜索能力决定了你的能力上限,因为获取有价值的信息,是一件非常困难,但是又非常重要的事情。在 AI 时代,这可能会变得更加困难,因为生成式 AI 它可以更快速地生成大量的垃圾内容,获取有价值的信息就像是大海捞针。现在海变得更大了,我们就不得不升级咱们捞针的装备,也就是搜索能力。 而搜索能力又体现在两个方面:搜索技术,以及你使用的搜索工具。今天我们不聊技术,先聊工具。给大家分享的是一个能够理解你的需求,然后提供直接而准确答案的搜索工具 Perplexity。我详细梳理了 Perplexity 的各项细节功能,我们看看它是如何利用 AI 的力量,来提升我们的搜索体验。 Perplexity 简介与优势 传统的搜索引擎,比如谷歌,它最大的问题就是给你找出一大堆的链接,点一个进去是广告,再点一个是标题党,你可能需要打开很多的链接,并且阅读之后,

By Axton