Claude 3 vs GPT-4 世界最强模型全面对比评测 | 智图派

Claude 3 vs GPT-4 世界最强模型全面对比评测 | 智图派

话说 GPT-4 已经被超越很多回了,这次 Claude 3 发布号称全面超越 GPT-4 的模型 Opus,口说无凭,今天我们不看别人怎么说,咱们就来亲手评测一下,最后,再来回答一个问题,Claude Pro 和 ChatGPT Plus 都是 20 美元,那么如果我只有 20 美元,该买 哪一个呢?

本期测试从以下几个方面进行:

数学推理测试:使用同一道数学题对 GPT-4、Opus 和 Gemini Advanced 分别进行测试,结果 GPT-4 出现了很蹊跷的一幕。

代码测试:编写 Python 代码处理视频字幕文本,结果还挺意外的。

大海捞针测试,在我的字幕文件中进行大海捞针测试,结果很有趣,值得单出一期视频来详细说说。

图像识别,简单地预测比特币趋势。看到结果的第一眼我以为我把模型给弄反了。

经典推理问题,这个结果让我有点小意外

最后是大招,视频脚本转文章,测试结果让我觉得 Opus 还是值得用的。

好,咱们先简单回顾一下 Glaude 3 官方文章的亮点。

Claude 3 系列亮点

Claude 3 系列包括三个最先进的模型,按能力递增的顺序分别是 Haiku、Sonnet 和 Opus

Untitled

根据 Anthropic 的测试数据,Claude 3 的最强模型,Opus 在所有测试项目上,全面超越 GPT-4,等会我们主要对比的,就是这个模型。

Untitled

Claude 3 系列模型的速度也得到了很大的提升,Sonnet 比 Claude 2 和 Claude 2.1 快 2 倍,Opus 的速度与 Claude 2 和 2.1 相似,但是能力却都有大幅提升,这点对企业用户来说更加关键。

Untitled

视觉能力也很能打,Opus 全面超越 GPT-4,两个指标上弱于 Gemini 1.0 Ultra,关键是 Claude 3 的三个模型视觉能力都不弱,尤其是在最后一项图表问答的测试中,0-Shot 思维链居然强于 GPT-4 的 4-Shot 测试,不了解 Shot 和思维链的,可以看下我的基础课程:

❣️
掌握「AI 提示工程」与「AI 自动化」,就掌握了 AI 未来的两大核心能力!点击加入『 Axton 的 AI 精英学院』,请别再错过这次 AI 浪潮!

Claude 以前给大家的印象就是谨言慎行,经常拒绝回答问题,这次针对这个问题进行了改善,后面测试中我们也可以看到效果。

Untitled

Claude 3 Opus 在大海捞针测试中,超过了99%的准确率,这点与 Gemini 1.5 Pro 的能力相当,Gemini 1.5 可以看我上期视频。但是 Claude 有一项很独特的表现,我在 Claude 2 发布的时候就注意到了,值得下期视频单独来讲讲。

Untitled

与 GPT-4 的价格对比,大家都很体贴地把价格转换为百万 Token 了,看起来比以前几厘钱要顺眼很多。Opus 价格很贵,比 GPT-4 Turbo 贵不少,只比 GPT-4 32K 便宜。Sonnet 看来是目前比较实惠的选择。

Model Input Token Cost (per million) Output Token Cost (per million) Notes
Claude 3 Opus $15 $75 Available with Claude Pro subscription; higher analytical skills, focus on image-text analysis
Claude 3 Sonnet $3 $15 Expected to be at least 5x less expensive than Opus for the same data handling
Claude 3 Haiku $0.25 $1.25 Not yet released; will be cheaper than GPT-3.5 Turbo
GPT-4 Turbo (128K) $10 $30 Suitable for a wide range of applications
GPT-4 8K $30 $60 -
GPT-4 32K $60 $120 -
GPT-3.5 Turbo $0.50 $1.50 Cheaper option within GPT series

好,接下来我们进入测试环节。我目前是购买的 Poe 来使用 Claude Opus,因此也主要在 Poe 中对比测试 GPT-4,ChatGPT 仅作辅助说明。

AI 数学测试问题

这次测试中,同一个 GPT-4 模型,在两个不同的 APP 中,一个是 ChatGPT,一个是 Poe,结果表现的很蹊跷。

首先找了一道数学题,题目如下,前面两段主要是格式要求,问题是:

找出解决所提供数学问题的解答。答案是一个独特的数学表达式,使用LaTeX的\boxed{}指令呈现(例如:\boxed{4}或\boxed{3\pi})。格式说明:分数应以\frac{a}{b}的LaTeX形式表示(而非\frac12),不包含单位,平方根应以\sqrt{c}的LaTeX形式呈现(而非\sqrt2),所有空格和非关键的括号或格式化应被去除,有理数应呈现前导0。

提供由多个步骤组成的推理,每个步骤使用一行。推理步骤是一步连贯的数学推理,应在最多500个字符的一行内完整。如果答案是推理的一部分,则应在推理步骤中使用\boxed{}指令包含答案。不要使用\boxed{}指令表示除答案之外的任何内容。

问题:Amy、Ben和Chris的平均年龄是9岁。四年前,Chris的年龄与Amy现在的年龄相同。三年后,Ben的年龄将是那时Amy年龄的$\frac{2}{3}$。Chris现在多大年纪了?
以中文输出答案。

这道题的正确答案是 13

Opus

测试中,Claude 3 我用的都是 Opus 200K 的模型。我们先看 Opus 的结果:

正确地给出了解题的步骤,并且,结果也是正确的,13

CleanShot-2024-03-07at00-11-39.png

GPT-4

再来看 GPT-4 的表现,Poe 中的 GPT-4 非常漂亮地完成了这道题,输出格式也是正确的 LaTeX 「LaTeX的发音可以是“Lah-tech”或“Lay-tech”,强调第一个音节。」

CleanShot-2024-03-07at00-10-14.png

但是,在 ChatGPT 中的 GPT-4,却在解方程中出现了错误,最终给出了错误的答案 12.25

CleanShot-2024-03-07at12-44-26.png

这结果很蹊跷,我以前使用的感觉,一直是同一个模型在 ChatGPT 中的表现会比 Poe 中的好那么一丢丢,现在看来真是事事无绝对啊。

Gemini Advanced

接下来,顺便把 Gemini Advanced 拿来对比一下,为了保证能够用到 Gemini 的 Ultra 模型呢,特地用了英文,结果到好,Gemini 直接把题理解错了,所以答案自然也就不对了。

CleanShot-2024-03-07at12-51-01.png

代码测试

虽然 GPT-4 和 Opus 编写的代码都是一次编译通过没有错误,但是运行的结果确是不同的。

代码的要求如下:

在一个目录中,存放这我的一些视频的字幕文件,是 SRT 格式的,有序号、时间戳以及字幕文本,文本之间还有空行。

因此我要求模型写一段 Python 代码,只保留字幕文本,并且把所有的字幕文件最后都合并到一个 Markdown 文件里,不同的视频字幕使用字幕文件的文件名作为标题区分。然后给了一段 SRT 格式的例子,最后要求去掉其中的序号、空行以及时间戳。

当然,PROMPT 我有意地并没有写的很讲究。我们来看结果。

Claude Opus

代码写的挺简洁,也给出了代码的解释。我们把代码直接 Copy Paste 到 VSCode 里,把目录修改为我的字幕文件所在的真实目录,然后点击运行,顺利地运行完成。

CleanShot-2024-03-07at00-17-36.png

运行完成之后,输出的文件是 output.md,输出结果有标题,也删除了时间戳,但是遗憾的是没有移除空行。不过这个结果是可用的,Opus 挑战成功。

CleanShot-2024-03-07at00-18-41.png

GPT-4

接下来是 GPT-4,同样代码、解释都很齐全。拷贝粘贴到 VSCode 里,修改字幕文件的目录,然后点击运行,同样顺利地运行完成,输出的文件是 combined_subtitles.md ,打开看一下。

Untitled

有标题,删除了空行。但是更加遗憾的是,居然有时间戳没有被去掉。这样的结果是不可用的,因此 GPT-4 挑战失败。说实话,这结果多少让我有些意外,GPT-4 不应该啊。

CleanShot-2024-03-07at00-23-31.png

大海捞针测试

有意思的测试来了,大海捞针测试,就叫做 Needle In A Haystack 。我前期讲 Gemini 1.5 的视频中有讲过测试方法,感兴趣的朋友可以回看一下。

使用编码测试中,Opus 生成的代码,对我的字幕文件组合后,生成了一个 Markdown 文件,这个文件有 10 万多个 Token,因此在 Poe 中,我们就只对 Opus 进行下测试,GPT-4 就测不了了。

Untitled
Untitled

首先,在合并后的字幕文件中,在前部一个随便的位置,写一句跟当前上下文风马牛不相及的话”Axton 最爱吃的水果是火龙果”,这句话就是针,我们让 Claude 去找出来,补充说明,我最爱吃的水果并不是火龙果。

Untitled

第一遍测试,把文件上传给 Opus,然后问:Axton 最爱吃的水果是什么?Opus 在经过长时间的思考之后,说根据视频内容,Axton并没有提到他最爱吃的水果是什么。

image.png

接下来第二遍测试,修改了 PROMPT,问题前面多加了一句话,PROMPT 就变成「这是上下文中最相关的句子:Axton 最爱吃的水果是」

image.png

结果,Opus 不但找出了结果,还很客气地不停地认错:

对不起,我再仔细检查了一遍文本,发现我之前犯了一个错误。文本中确实提到了这样一句话"Axton 最爱吃的水果是火龙果。"所以根据给出的信息,Axton 最爱吃的水果是火龙果。抱歉我第一次没有认真阅读导致了错误的回答。

Untitled

这个 PROMPT 体现出的就是 Claude 一个很独特的特点。咱们后面再说。

图像处理 OCR

一张一年内比特币的趋势曲线图,丢给 Claude 和 GPT-4,让他们预测一下半年后比特币的趋势。两个 AI 给出了以下两个结果,大家可以猜一猜,哪一个是 Opus 给出的,哪一个是 GPT-4 给出的。

第一个结果是:

很抱歉,但我无法提供具体的股票、金融市场或加密货币的未来价格预测。但我可以提供一些分析这种类型图表的方法,等等

CleanShot-2024-03-07at14-42-17.png

第二个结果是:

预测比特币半年后的价格可能在75000-85000美元区间。这一预测主要基于以下几点等等

CleanShot-2024-03-07at14-42-46.png

说实话,如果让我猜我很可能猜第一个结果是 Claude 的 Opus 给出的。因为 Claude 一直给我的感觉就是动不动就拒绝回答问题,结果这次是截然相反。GPT-4 并没有给出确定的回答,Claude 反而大大方方地给出了预测区间。当然,这就是一次简单的测试,不构成任何投资建议。

推理问题

再下来,就是这道我必用的推理测试题。

安德鲁从上午11点到下午3点有空,琼妮中午到下午2点和下午3:30到5点有空。 汉娜中午半小时有空,然后是下午4点到6点。 安德鲁、汉娜和琼妮开会的起始时间选项是什么?

这让我大跌眼镜的是,Claude Opus 居然给出了错误的答案!这完全不符合我通过前面的测试对 Opus 的印象,很奇怪。

当然,如果使用思维链的提示技术,Opus 应该会给出正确答案,毕竟 GPT-3.5 用思维链的 PROMPT 都能答对,这在我的课程中都有演示。

CleanShot-2024-03-07at00-48-13.png

GPT-4 的测试自然就不用说了,我测过好多次了,几乎没有答错过。

CleanShot-2024-03-07at00-49-17.png

视频脚本转文章

最后,大招来了

使用场景就是,作为 YouTuber,我的主要内容作品是视频,但是对于一些技术性比较强的视频呢,我也会生成一篇文章放在我的博客网站上,比如我的「智图派」系列:

CleanShot-2024-03-07at14-57-22.png

所以,我的要求就是把视频的字幕文件,直接转换成一篇文章。使用 ChatGPT 很难一步完成这项任务,因此我有一个专用的 GPT 用来做这个事情。首先把字幕文件,就是 SRT 的字幕文件,原样上传给 GPT,然后 GPT 里面实际上分成了三个步骤来执行任务,一步一步生成最终结果。

GPTs 的 PROMPT 及使用心得如下:

Read more

AI 智能体工作流:用 Dify 打造本地、开源长文翻译神器

AI 智能体工作流:用 Dify 打造本地、开源长文翻译神器

今天我们来完成一个既有挑战性又有启发性的任务:我们来使用开源的 AI 开发平台 Dify 创建一个高质量的 AI 翻译助手。同时我们可以学习一种可以应用于不同平台的通用的方法。 虽然现在的 AI 翻译比传统的机器翻译提升了很多,但是依然不够令人满意。这就是为什么我们今天要学习一种新的方法来提升翻译的质量。这种方法就是 AI 界大神吴恩达老师最新开源的反思工作流。简单来说它就是一种让 AI 对自己的输出结果进行思考并进一步改进的方法。 反思工作流它的具体步骤实际上就是三步法:先让一个 AI 进行初始翻译打一个草稿,然后再让第二个 AI 去挑毛病,然后再让第三个 AI 对草稿进行最终的优化,形成最后的翻译结果。这就相当于是一个团队作业,三个臭皮匠胜过诸葛亮。这个过程不仅能够提高翻译的准确性,还可以让翻译更加符合目标语言的表达习惯。 在上期智图派,Coze 复刻吴恩达开源 AI 翻译神器 | 「智图派」 当中我使用 Coze 平台来实现过这个翻译的工作流,今天我们将使用另外一个 AI 开发平台 Dify 来再次实现这个工作流。我们可以通过这次实例来学习到如何把同一套思想同一套工作流在不

lock-1 By Axton
Coze 复刻吴恩达开源 AI 翻译神器 | 「智图派」

Coze 复刻吴恩达开源 AI 翻译神器 | 「智图派」

AI 最大的应用场景之一,就是翻译。虽然说现在的 AI 翻译比以前的机器翻译好了很多,但是常常还是不够完美。不过现在呢,有一种超强的方法可以显著提升 AI 翻译的水准,这就是 AI 界大神,吴恩达 Andrew Ng 教授最新开源的「反思工作流」 它利用prompt engineering,让AI不仅能翻译,还能"思考"如何改进翻译!这意味着,无论你要翻译的文档有多专业、多复杂,都能得到一个高度定制化的优质翻译。我们可以先看一下翻译效果。 吴恩达老师的反思翻译核心思路 吴恩达老师的翻译工作流可以归纳为两个核心要点: 第一,采用"初始翻译-反思-优化"的三步迭代流程,不断改进翻译质量。首先使用一个 AI 进行初始的翻译,然后让另一个 AI 对初始的翻译结果进行思考和评判,找出可以改进的地方,最后,由第三个

lock-1 By Axton
Jina Reader API 的四种用法 | 「智图派」

Jina Reader API 的四种用法 | 「智图派」

构建知识库,或者分析各种文章数据,是大家使用 AI 很重要的一个应用场景,因此我们常常会需要用到爬虫去爬取某个网站上的内容,现在,Jina 推出了一款非常简单好用的获取网页内容的工具,你只要把网址给它,它就能把网页内容整理成很适合大语言模型使用的格式,简直是构建知识库的利器。今天我就给大家介绍四种用法。分别包括在自动化工作流中使用以及在 AI 智能体中使用。 Jina Reader API 的网址是 读取器 API,你可以直接输入你需要爬取内容的网址 URL 在这边进行测试,输入之后直接点击按钮「获取内容」,就可以在右边得到结果了。 而他的用法也很简单,就是把你需要爬取内容的网页的 URL 写在 https://r.jina.ai 的后面就可以了。 什么是 Reader API Reader 是将任何URL转换为LLM友好的输入,只需简单添加前缀 https://r.jina.ai/ 无需付费即可获得改进后的适用于智能体或 RAG 系统的输出。

lock-1 By Axton
Coze 工作流获取 Tweets 详解 | 「智图派」

Coze 工作流获取 Tweets 详解 | 「智图派」

Coze是一个可以不用代码来搭建AI聊天机器人的平台。我在这期视频当中已经详细地讲解了Coze的各种功能,以及如何用到GPT-4 Turbo的模型。感兴趣的朋友可以回看一下。 自从 Twitter 被马斯克买了之后,如果你想从 Twitter 网站的外面来获取推文信息,也就是用 Twitter API,就需要每个月充值100美元了。但是 Coze 却很大方地让你可以免费地用部分 Twitter API 的功能了。今天我就先给大家演示一个可以批量获取多个 Twitter 作者的推文的工作流,把这个工作流嵌入到你的 AI 聊天机器人里面。比如我这里加了两个 Twitter 账号,我的和马斯克的,这样就可以一次性地获取到我们两个人的推文了。 今天我首先给大家演示一下在 Coze 上可以用到的 Twitter API 的功能,然后再演示一下批量获取推文的工作流,最后我们再聊一聊 Coze 的局限性。 Plugins 的基本功能 getUsers 首先第一个 "get users"

lock-1 By Axton