「智图派」

一次处理 80 万汉字，Gemini 1.5 Pro 值得期待吗「智图派」

Axton

26 Feb 2024 — 13 min read

Drawing 2024-02-22 14.41.15.excalidraw.png

虽然 OpenAI 的 Sora 火遍全网，吸引了大家的眼球，但是不要忽略了，Gemini 1.5 的突破性进展带来的深远影响。这甚至比 Sora 都更有意义。

Gemini 1.5 相比 Gemini 1.0，虽然只是半个版本号的变化，增加了 0.5，但是在性能方面具有很大的改进，以至于达到了 1.0 Ultra 版本的能力，但是消耗的算力却更少。

我们知道，Gemini 分为三个版本，其中 Pro 是中档版本，而 Ultra 是高级版。1.0 Ultra 是与 GPT-4 对标的，因此可以说，Gemini 1.5 Pro 版本已经达到了 GPT-4 的级别，而且在一项参数上，直接超越了 GPT-4 将近 8 倍甚至 80 倍，这就是 Token 数量。

Gemini 1.5 的 Token 数量达到了 100 万，如果不了解 Token 我们可以简单理解为 AI 能够处理的字数，一般一个汉字大约占 1.2 个 Token，所以 100 万 Token 相当于 Gemini 一次性处理一部 78 万 8 千字的「红楼梦」还绰绰有余。

100 万 Token 就是 Gemini 1.5 的核心创新之一，另外还有一项是 Gemini 1.5 的技术架构是优化后的多模态稀疏混合专家模型。

把上下文窗口增加到 1M 而不牺牲性能，这是一项巨大的技术飞跃

我们先来简单对比一下就知道技术的发展有多快。一年以前，正是 ChatGPT 3.5 大火的时候，它的 Token 数量是 4 千，现在，GPT-4 的最大 Token 是 12 万 8 ，Claude 是 20 万，而 Gemini 1.5 上来就把 Token 的天花板直接拔高了 5 倍，这还不算，Gemini 在实验中达到过 1000 万的 Token 数量。

那么，有这么大的数量，到底有什么意义呢？我们首先来看几个的例子。

大量信息中的推理能力。

首先是在一整本教科书中回答问题

这位叫做 Mckay 的推友把一本完整的生物学教科书输入到 Gemini1.5 Pro 中。一共491,002个 Token。然后问了三个非常具体的问题，它每个问题都回答得百分之百正确。

这对学生党那可真是大利好啊。

接下来，把阿波罗11号登月任务的字幕脚本，一共402页 PDF 文档交给 Gemini，然后让他”找到三个戏剧性的时刻，并列出剧本中的相关语录和对应的 Emoji”

30 秒之后，找到了三条，其中第一条是：跟我赌一杯咖啡，在原文之中确实有这句话。

接下来测试图片提示，画了一张草图，问 Gemini，这是什么时刻？Gemini 准确地识别出了图片并查到了具体的内容，这是尼尔·阿姆斯特朗说出“这是我的一小步，却是人类的一大步”的时刻，他成为了第一个踏上月球的人类。然后接着追问：找出这句话的时间点，Gemini 准确地找出了 4 13 24 48 这个时间戳。

这只是对长文本的处理，接下来是「跨模态的理解和推理」。

跨模态的理解和推理

上传一段 44 分钟的影片，大约 60 万 Token，然后给了 Gemini 一个任务：找到纸张被从人物口袋中取出的时刻，并提供纸张上的关键信息以及对应的时间戳。

大约 1 分钟后，识别出来的结果是：

12:01时，一张纸从人物口袋中被取出。这是一张日期为1924年10月23日的典当行收据，典当人签名是Will Smith，典当物品为手表和表链，金额为4美元。典当行名为 I. Goldman & Co. Pawn Brokers。

在视频中定位到 12 分时我们可以看到，Gemini 查找的完全正确：

接下来跟上一次类似，又是一张灵魂画手的手绘图，问：这个事情发生的时间点是什么？

Gemini 给出答案 15：34，我们看一下，果然没错。

好，文本、视频都没问题，代码能力又如何呢？

代码能力测试

这是一个 10 万行代码，81 万 Token 的演示，Gemini 可以在代码中找到控制动画的部分代码，并且可以使用其他代码示例中的技术来编写新的代码，还能根据要求修改任何一个示例部分的代码 1：42，有了这么强大的能力，以后屎山代码就不用愁了。

但是，这些都还不够强，更强的是后面两个。

大海捞针

第一个是大海捞针测试。英文叫做NIAH，也就是，在干草堆里找一根针（Needle In A Haystack）。

“Needle-in-a-Haystack”测试

测试用 Make.com 手搓一个 Deep Research

Grok 3真的具备推理能力吗？面对免费开放的最强AI，我们该如何应对？近几个月来，人工智能领域发生了翻天覆地的变化。继OpenAI、Google和Anthropic等科技巨头推出一系列强大模型之后，Elon Musk的AI初创公司xAI再次引爆舆论——全新推出的Grok 3号称是“最强AI”，不仅在性能上大幅超越自家Grok 2，更以免费开放的策略引发了业内外的广泛讨论。本文将深入剖析Grok 3的诞生背景、技术架构、性能表现以及它在推理能力上的真正实力，同时探讨这种免费策略对竞争格局的可能影响，并展望未来AI技术的发展趋势和面临的挑战。 1. 引言：Grok 3的诞生与市场冲击 1.1 Grok 3简介与推出背景 Grok 3是xAI最新发布的人工智能模型，其诞生背景充满戏剧性与战略考量。早在2015年，Elon Musk即曾参与创办OpenAI，但随着时间的推移，Musk对于OpenAI偏离初衷、走向商业化的趋势产生了诸多不满，从而在2023年另起炉灶成立了xAI。Musk在其直播演示中表示，Grok 3在计算力、推理能力以及数据支撑上都实现了质的飞跃，不仅较上一代

test

this is a tes

Napkin AI: 一键生成专业图表

主题 Napkin AI 工具介绍与使用教程：详细介绍了 Napkin AI 这款能将文本转化为专业图表的工具，并提供了实际操作指南。 AI 辅助内容创作与可视化：探讨了如何利用 AI 工具（如 NotebookLM 和 Napkin AI）来总结视频内容并将其转化为视觉吸引力强的图表。专业图表在商业展示中的重要性：讨论了高质量图表在商业咨询和演示中的关键作用。核心要点 * Napkin AI 能将文本自动转化为专业级别的图表，大大提高了内容创作和演示的效率。 * 该工具提供了丰富的自定义选项和高级功能，如 Spark Search 和协作功能，满足不同用户的需求。 * Napkin AI 的出现可能会降低高质量商业展示的成本门槛，使普通用户也能制作出专业水准的图表。 * 尽管目前还处于测试阶段，Napkin AI 展现出了巨大的潜力，预示着内容创作和信息可视化领域的变革。洞见 Napkin AI 代表了一种新兴的"专业技能"趋势。

Claude 新功能超越 ChatGPT？

主题 Claude最新数据分析功能发布与ChatGPT对比: 详细介绍了Claude新推出的数据分析功能，并与ChatGPT的高级数据分析功能进行了对比测试。 AI公司之间的竞争: 分析了Anthropic(Claude)和OpenAI(ChatGPT)在功能更新方面的竞争态势。大型语言模型的数据处理能力: 探讨了Claude和ChatGPT在处理不同规模数据文件时的表现和局限性。核心要点 * Claude新推出的数据分析功能能够处理CSV文件并生成交互式图表，展示了大语言模型在数据科学领域的应用潜力。 * Anthropic通过连续推出新功能，包括数据分析工具，似乎在直接挑战OpenAI的市场地位，反映了AI公司间激烈的竞争态势。 * 虽然Claude在图表交互性和视觉效果上表现出色，但在数据处理能力和全面性上仍落后于ChatGPT的高级数据分析功能。 * 大型语言模型正在向多功能、集成化方向发展，不再局限于纯文本处理，而是扩展到数据分析、可视化等领域。洞见 AI公司间的功能竞争正在推动"AI即服务"(AIaaS)生态系统的快速演变。随着像Claude