一次处理 80 万汉字,Gemini 1.5 Pro 值得期待吗 「智图派」

一次处理 80 万汉字,Gemini 1.5 Pro 值得期待吗 「智图派」
Drawing 2024-02-22 14.41.15.excalidraw.png

虽然 OpenAI 的 Sora 火遍全网,吸引了大家的眼球,但是不要忽略了,Gemini 1.5 的突破性进展带来的深远影响。这甚至比 Sora 都更有意义。

Gemini 1.5 相比 Gemini 1.0,虽然只是半个版本号的变化,增加了 0.5,但是在性能方面具有很大的改进,以至于达到了 1.0 Ultra 版本的能力,但是消耗的算力却更少。

我们知道,Gemini 分为三个版本,其中 Pro 是中档版本,而 Ultra 是高级版。1.0 Ultra 是与 GPT-4 对标的,因此可以说,Gemini 1.5 Pro 版本已经达到了 GPT-4 的级别,而且在一项参数上,直接超越了 GPT-4 将近 8 倍甚至 80 倍,这就是 Token 数量。

Gemini 1.5 的 Token 数量达到了 100 万,如果不了解 Token 我们可以简单理解为 AI 能够处理的字数,一般一个汉字大约占 1.2 个 Token,所以 100 万 Token 相当于 Gemini 一次性处理一部 78 万 8 千字的「红楼梦」还绰绰有余。

100 万 Token 就是 Gemini 1.5 的核心创新之一,另外还有一项是 Gemini 1.5 的技术架构是优化后的多模态稀疏混合专家模型。

把上下文窗口增加到 1M 而不牺牲性能,这是一项巨大的技术飞跃

我们先来简单对比一下就知道技术的发展有多快。一年以前,正是 ChatGPT 3.5 大火的时候,它的 Token 数量是 4 千,现在,GPT-4 的 最大 Token 是 12 万 8 ,Claude 是 20 万,而 Gemini 1.5 上来就把 Token 的天花板直接拔高了 5 倍,这还不算,Gemini 在实验中达到过 1000 万的 Token 数量。

image 1.png

那么,有这么大的数量,到底有什么意义呢?我们首先来看几个的例子。

大量信息中的推理能力。

首先是在一整本教科书中回答问题

这位叫做 Mckay 的推友把一本完整的生物学教科书输入到 Gemini1.5 Pro 中。一共491,002个 Token。然后问了三个非常具体的问题,它每个问题都回答得百分之百正确。

image 2.png

这对学生党那可真是大利好啊。

接下来,把阿波罗11号登月任务的字幕脚本,一共402页 PDF 文档交给 Gemini,然后让他”找到三个戏剧性的时刻,并列出剧本中的相关语录和对应的 Emoji”

30 秒之后,找到了三条,其中第一条是:跟我赌一杯咖啡,在原文之中确实有这句话。

image 3.png

接下来测试图片提示,画了一张草图,问 Gemini,这是什么时刻?Gemini 准确地识别出了图片并查到了具体的内容,这是尼尔·阿姆斯特朗说出“这是我的一小步,却是人类的一大步”的时刻,他成为了第一个踏上月球的人类。然后接着追问:找出这句话的时间点,Gemini 准确地找出了 4 13 24 48 这个时间戳。

image 4.png

这只是对长文本的处理,接下来是「跨模态的理解和推理」。

跨模态的理解和推理

上传一段 44 分钟的影片,大约 60 万 Token,然后给了 Gemini 一个任务:找到纸张被从人物口袋中取出的时刻,并提供纸张上的关键信息以及对应的时间戳。

大约 1 分钟后,识别出来的结果是:

12:01时,一张纸从人物口袋中被取出。这是一张日期为1924年10月23日的典当行收据,典当人签名是Will Smith,典当物品为手表和表链,金额为4美元。典当行名为 I. Goldman & Co. Pawn Brokers。

在视频中定位到 12 分时我们可以看到,Gemini 查找的完全正确:

image 5.png

接下来跟上一次类似,又是一张灵魂画手的手绘图,问:这个事情发生的时间点是什么?

Gemini 给出答案 15:34,我们看一下,果然没错。

image 6.png

好,文本、视频都没问题,代码能力又如何呢?

代码能力测试

这是一个 10 万行代码,81 万 Token 的演示,Gemini 可以在代码中找到控制动画的部分代码,并且可以使用其他代码示例中的技术来编写新的代码,还能根据要求修改任何一个示例部分的代码 1:42,有了这么强大的能力,以后屎山代码就不用愁了。

image 7.png

但是,这些都还不够强,更强的是后面两个。

大海捞针

第一个是大海捞针测试。英文叫做NIAH, 也就是,在干草堆里找一根针 (Needle In A Haystack)。

“Needle-in-a-Haystack”测试

Read more

DALL.E 推出图像编辑以及风格推荐功能 | Sora 再现竞争对手 | AI 快讯20240404

DALL.E 推出图像编辑以及风格推荐功能 | Sora 再现竞争对手 | AI 快讯20240404

点击进入「AI 精英学院」,做一个会 AI 的人- DALL.E 推出图像编辑以及风格推荐功能 - “多次尝试破解”:实验室揭示AI安全特性如何被轻松绕过 - 前Snap AI负责人推出Higgsfield,挑战OpenAI的Sora - MIT研究人员开发新计算技术以简化蛋白质工程化过程 使用DALL·E编辑图片 原文链接:Editing your images with DALL·E | OpenAI Help Center OpenAI 的推文包含两项功能的视频演示: You can also get inspiration on styles when creating images in the DALL·E GPT. pic.twitter.com/

By Axton
ChatGPT 不用注册就可以免费用了 | 黄仁勋:“别再学编程”  | AI 快讯20240402

ChatGPT 不用注册就可以免费用了 | 黄仁勋:“别再学编程” | AI 快讯20240402

点击进入「AI 精英学院」,做一个会 AI 的人- ChatGPT 不用注册就可以免费用了 - 微软与OpenAI计划建造1000亿美元AI超级计算机 - 三星确认Bixby语音助手未被淘汰 - OpenAI发布最具争议的AI工具Voice Engine - AI 阴影下的程序员生存指南 OpenAI发布ChatGPT即时使用功能 原文链接:点击查看 OpenAI宣布ChatGPT现在可以即时使用,无需用户注册。此次更新的目的是为了让更多人轻松体验到AI的好处。 目前,ChatGPT已在全球185个国家中被超过1亿用户每周使用,帮助用户学习新知识、寻找创意灵感,以及解答各种问题。为了进一步降低使用门槛,OpenAI引入了新的内容安全措施,并允许用户在设置中选择是否允许其提供的内容用于模型改进。 虽然即时使用功能免除了注册需求,但创建账户仍能享受保存和查看聊天历史、分享聊天内容以及解锁更多功能(如语音对话和自定义指令)等好处。这一变化标志着OpenAI在使AI技术更加易于接触和普及方面迈出的又一重要步骤。 本期「AI 快讯」由 Axton 与 AI 自动化 和 GPTs 共

By Axton
Suno 带来 AI 作词作曲的 ChatGPT 时刻! | AI 快讯20240324

Suno 带来 AI 作词作曲的 ChatGPT 时刻! | AI 快讯20240324

点击进入「AI 精英学院」,做一个会 AI 的人 今天又被 AI 写歌震撼到了,Suno V3,AI 作词作曲的 ChatGPT 时刻! AI 的出现,让我们每个人能够更加淋漓尽致地表达我们的思想,ChatGPT 给了我们文字、Midjourney 给了我们绘画、Sora 给了我们视频、而 Suno 给了我们歌曲。 最新视频: https://youtu.be/gEwM6VX1ZCM 视频制作过程中,创作的歌曲: 十八岁的夏天 | SunoUplifting Chinese pop with a lively, catchy melody transitioning to a nostalgic, mellow tone, blend

By Axton
为什么 Perplexity 是AI搜索的未来?又是如何重塑我们获取信息的方式 |  智图派

为什么 Perplexity 是AI搜索的未来?又是如何重塑我们获取信息的方式 | 智图派

这是最新一期视频的文字版本,分享给喜欢阅读的朋友。如果你更愿意看视频,以下是视频链接: 点击进入「AI 精英学院」,做一个会 AI 的人 可以不夸张地说呀,搜索能力决定了你的能力上限,因为获取有价值的信息,是一件非常困难,但是又非常重要的事情。在 AI 时代,这可能会变得更加困难,因为生成式 AI 它可以更快速地生成大量的垃圾内容,获取有价值的信息就像是大海捞针。现在海变得更大了,我们就不得不升级咱们捞针的装备,也就是搜索能力。 而搜索能力又体现在两个方面:搜索技术,以及你使用的搜索工具。今天我们不聊技术,先聊工具。给大家分享的是一个能够理解你的需求,然后提供直接而准确答案的搜索工具 Perplexity。我详细梳理了 Perplexity 的各项细节功能,我们看看它是如何利用 AI 的力量,来提升我们的搜索体验。 Perplexity 简介与优势 传统的搜索引擎,比如谷歌,它最大的问题就是给你找出一大堆的链接,点一个进去是广告,再点一个是标题党,你可能需要打开很多的链接,并且阅读之后,

By Axton