一次处理 80 万汉字,Gemini 1.5 Pro 值得期待吗 「智图派」

一次处理 80 万汉字,Gemini 1.5 Pro 值得期待吗 「智图派」
Drawing 2024-02-22 14.41.15.excalidraw.png

虽然 OpenAI 的 Sora 火遍全网,吸引了大家的眼球,但是不要忽略了,Gemini 1.5 的突破性进展带来的深远影响。这甚至比 Sora 都更有意义。

Gemini 1.5 相比 Gemini 1.0,虽然只是半个版本号的变化,增加了 0.5,但是在性能方面具有很大的改进,以至于达到了 1.0 Ultra 版本的能力,但是消耗的算力却更少。

我们知道,Gemini 分为三个版本,其中 Pro 是中档版本,而 Ultra 是高级版。1.0 Ultra 是与 GPT-4 对标的,因此可以说,Gemini 1.5 Pro 版本已经达到了 GPT-4 的级别,而且在一项参数上,直接超越了 GPT-4 将近 8 倍甚至 80 倍,这就是 Token 数量。

Gemini 1.5 的 Token 数量达到了 100 万,如果不了解 Token 我们可以简单理解为 AI 能够处理的字数,一般一个汉字大约占 1.2 个 Token,所以 100 万 Token 相当于 Gemini 一次性处理一部 78 万 8 千字的「红楼梦」还绰绰有余。

100 万 Token 就是 Gemini 1.5 的核心创新之一,另外还有一项是 Gemini 1.5 的技术架构是优化后的多模态稀疏混合专家模型。

把上下文窗口增加到 1M 而不牺牲性能,这是一项巨大的技术飞跃

我们先来简单对比一下就知道技术的发展有多快。一年以前,正是 ChatGPT 3.5 大火的时候,它的 Token 数量是 4 千,现在,GPT-4 的 最大 Token 是 12 万 8 ,Claude 是 20 万,而 Gemini 1.5 上来就把 Token 的天花板直接拔高了 5 倍,这还不算,Gemini 在实验中达到过 1000 万的 Token 数量。

image 1.png

那么,有这么大的数量,到底有什么意义呢?我们首先来看几个的例子。

大量信息中的推理能力。

首先是在一整本教科书中回答问题

这位叫做 Mckay 的推友把一本完整的生物学教科书输入到 Gemini1.5 Pro 中。一共491,002个 Token。然后问了三个非常具体的问题,它每个问题都回答得百分之百正确。

image 2.png

这对学生党那可真是大利好啊。

接下来,把阿波罗11号登月任务的字幕脚本,一共402页 PDF 文档交给 Gemini,然后让他”找到三个戏剧性的时刻,并列出剧本中的相关语录和对应的 Emoji”

30 秒之后,找到了三条,其中第一条是:跟我赌一杯咖啡,在原文之中确实有这句话。

image 3.png

接下来测试图片提示,画了一张草图,问 Gemini,这是什么时刻?Gemini 准确地识别出了图片并查到了具体的内容,这是尼尔·阿姆斯特朗说出“这是我的一小步,却是人类的一大步”的时刻,他成为了第一个踏上月球的人类。然后接着追问:找出这句话的时间点,Gemini 准确地找出了 4 13 24 48 这个时间戳。

image 4.png

这只是对长文本的处理,接下来是「跨模态的理解和推理」。

跨模态的理解和推理

上传一段 44 分钟的影片,大约 60 万 Token,然后给了 Gemini 一个任务:找到纸张被从人物口袋中取出的时刻,并提供纸张上的关键信息以及对应的时间戳。

大约 1 分钟后,识别出来的结果是:

12:01时,一张纸从人物口袋中被取出。这是一张日期为1924年10月23日的典当行收据,典当人签名是Will Smith,典当物品为手表和表链,金额为4美元。典当行名为 I. Goldman & Co. Pawn Brokers。

在视频中定位到 12 分时我们可以看到,Gemini 查找的完全正确:

image 5.png

接下来跟上一次类似,又是一张灵魂画手的手绘图,问:这个事情发生的时间点是什么?

Gemini 给出答案 15:34,我们看一下,果然没错。

image 6.png

好,文本、视频都没问题,代码能力又如何呢?

代码能力测试

这是一个 10 万行代码,81 万 Token 的演示,Gemini 可以在代码中找到控制动画的部分代码,并且可以使用其他代码示例中的技术来编写新的代码,还能根据要求修改任何一个示例部分的代码 1:42,有了这么强大的能力,以后屎山代码就不用愁了。

image 7.png

但是,这些都还不够强,更强的是后面两个。

大海捞针

第一个是大海捞针测试。英文叫做NIAH, 也就是,在干草堆里找一根针 (Needle In A Haystack)。

“Needle-in-a-Haystack”测试

Read more

AI 智能体工作流:用 Dify 打造本地、开源长文翻译神器

AI 智能体工作流:用 Dify 打造本地、开源长文翻译神器

今天我们来完成一个既有挑战性又有启发性的任务:我们来使用开源的 AI 开发平台 Dify 创建一个高质量的 AI 翻译助手。同时我们可以学习一种可以应用于不同平台的通用的方法。 虽然现在的 AI 翻译比传统的机器翻译提升了很多,但是依然不够令人满意。这就是为什么我们今天要学习一种新的方法来提升翻译的质量。这种方法就是 AI 界大神吴恩达老师最新开源的反思工作流。简单来说它就是一种让 AI 对自己的输出结果进行思考并进一步改进的方法。 反思工作流它的具体步骤实际上就是三步法:先让一个 AI 进行初始翻译打一个草稿,然后再让第二个 AI 去挑毛病,然后再让第三个 AI 对草稿进行最终的优化,形成最后的翻译结果。这就相当于是一个团队作业,三个臭皮匠胜过诸葛亮。这个过程不仅能够提高翻译的准确性,还可以让翻译更加符合目标语言的表达习惯。 在上期智图派,Coze 复刻吴恩达开源 AI 翻译神器 | 「智图派」 当中我使用 Coze 平台来实现过这个翻译的工作流,今天我们将使用另外一个 AI 开发平台 Dify 来再次实现这个工作流。我们可以通过这次实例来学习到如何把同一套思想同一套工作流在不

lock-1 By Axton
Coze 复刻吴恩达开源 AI 翻译神器 | 「智图派」

Coze 复刻吴恩达开源 AI 翻译神器 | 「智图派」

AI 最大的应用场景之一,就是翻译。虽然说现在的 AI 翻译比以前的机器翻译好了很多,但是常常还是不够完美。不过现在呢,有一种超强的方法可以显著提升 AI 翻译的水准,这就是 AI 界大神,吴恩达 Andrew Ng 教授最新开源的「反思工作流」 它利用prompt engineering,让AI不仅能翻译,还能"思考"如何改进翻译!这意味着,无论你要翻译的文档有多专业、多复杂,都能得到一个高度定制化的优质翻译。我们可以先看一下翻译效果。 吴恩达老师的反思翻译核心思路 吴恩达老师的翻译工作流可以归纳为两个核心要点: 第一,采用"初始翻译-反思-优化"的三步迭代流程,不断改进翻译质量。首先使用一个 AI 进行初始的翻译,然后让另一个 AI 对初始的翻译结果进行思考和评判,找出可以改进的地方,最后,由第三个

lock-1 By Axton
Jina Reader API 的四种用法 | 「智图派」

Jina Reader API 的四种用法 | 「智图派」

构建知识库,或者分析各种文章数据,是大家使用 AI 很重要的一个应用场景,因此我们常常会需要用到爬虫去爬取某个网站上的内容,现在,Jina 推出了一款非常简单好用的获取网页内容的工具,你只要把网址给它,它就能把网页内容整理成很适合大语言模型使用的格式,简直是构建知识库的利器。今天我就给大家介绍四种用法。分别包括在自动化工作流中使用以及在 AI 智能体中使用。 Jina Reader API 的网址是 读取器 API,你可以直接输入你需要爬取内容的网址 URL 在这边进行测试,输入之后直接点击按钮「获取内容」,就可以在右边得到结果了。 而他的用法也很简单,就是把你需要爬取内容的网页的 URL 写在 https://r.jina.ai 的后面就可以了。 什么是 Reader API Reader 是将任何URL转换为LLM友好的输入,只需简单添加前缀 https://r.jina.ai/ 无需付费即可获得改进后的适用于智能体或 RAG 系统的输出。

lock-1 By Axton
Coze 工作流获取 Tweets 详解 | 「智图派」

Coze 工作流获取 Tweets 详解 | 「智图派」

Coze是一个可以不用代码来搭建AI聊天机器人的平台。我在这期视频当中已经详细地讲解了Coze的各种功能,以及如何用到GPT-4 Turbo的模型。感兴趣的朋友可以回看一下。 自从 Twitter 被马斯克买了之后,如果你想从 Twitter 网站的外面来获取推文信息,也就是用 Twitter API,就需要每个月充值100美元了。但是 Coze 却很大方地让你可以免费地用部分 Twitter API 的功能了。今天我就先给大家演示一个可以批量获取多个 Twitter 作者的推文的工作流,把这个工作流嵌入到你的 AI 聊天机器人里面。比如我这里加了两个 Twitter 账号,我的和马斯克的,这样就可以一次性地获取到我们两个人的推文了。 今天我首先给大家演示一下在 Coze 上可以用到的 Twitter API 的功能,然后再演示一下批量获取推文的工作流,最后我们再聊一聊 Coze 的局限性。 Plugins 的基本功能 getUsers 首先第一个 "get users"

lock-1 By Axton