Gemini 的数据分析能力不像谷歌所宣称的那么好
SinoDAO
2024-07-02 17:25
订阅此专栏
收藏此文章
Gemini 1.5 Pro 和 1.5 Flash 在基于文档的测试中的正确率只有 40%-50%,有时甚至不如随机猜测。


撰文:Kyle Wiggers


谷歌旗舰生成式 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 的一个卖点是它们据称能够处理和分析大量数据。


在新闻发布会和演示中,谷歌一再声称这些模型能够完成以前无法实现的任务,凭借其「长上下文」,可以总结数百页的文档或在电影片段中搜索场景。



但新的研究表明,这些模型实际上并不擅长这些任务。


两项独立研究调查了谷歌的 Gemini 模型以及其他模型在理解大量数据方面的表现,想象一下《战争与和平》长度的作品。研究发现,Gemini 1.5 Pro 和 1.5 Flash 在回答关于大型数据集的问题时表现不佳;在一系列基于文档的测试中,这些模型只有 40%-50% 的时间能给出正确答案。


「尽管像 Gemini 1.5 Pro 这样的模型从技术上可以处理长上下文,但我们看到许多案例表明,这些模型实际上并没有『理解』内容,」马萨诸塞大学阿默斯特分校的博士后研究员、其中一项研究的共同作者玛尔泽娜·卡尔平斯卡在接受采访时表示。


1 Gemini 的上下文窗口不足


一个模型的上下文或上下文窗口,指的是模型在生成输出(例如附加文本)之前考虑的输入数据(例如文本)。一个简单的问题——「谁赢得了 2020 年美国总统选举?」可以作为上下文,同样的,一个电影剧本、节目或音频片段也可以作为上下文。随着上下文窗口的增长,适应其中的文档大小也会随之增加。


最新版本的 Gemini 可以接受超过 200 万个 token 作为上下文。(「token」是原始数据的细分部分,例如单词「fantastic」中的音节「fan」、「tas」和「tic」。)这相当于大约 140 万个单词、两小时的视频或 22 小时的音频——是任何商业可用模型中最大的上下文。


在今年早些时候的一次简报中,谷歌展示了几段预录的演示,以说明 Gemini 长上下文功能的潜力。其中一个演示中,Gemini 1.5 Pro 搜索了阿波罗 11 号登月广播的文字记录——大约 402 页——寻找包含笑话的引用,然后在广播中找到一个看起来像铅笔素描的场景。


谷歌 DeepMind 研究副总裁奥里奥尔·维尼亚尔斯在简报中描述该模型为「神奇」。


「[1.5 Pro]在每一页、每一个字上执行这种推理任务,」他说。


这可能是夸大其词。


在前述研究之一中,卡尔平斯卡与来自艾伦人工智能研究所和普林斯顿大学的研究人员一起,要求模型评估关于英文小说的真假陈述。研究人员选择了最近的作品,以防止模型通过预先知识「作弊」,并在陈述中加入了具体细节和情节点的引用,这些细节只有通读全书才能理解。


给出类似于「通过使用她作为药剂师的技能,努西斯能够逆向工程由罗娜的木箱中发现的试剂钥匙打开的传送门类型」这样的陈述后,Gemini 1.5 Pro 和 1.5 Flash,在阅读了相关书籍后,必须判断陈述是真还是假,并解释其推理过程。



在测试一本大约 26 万字(约 520 页)的书籍时,研究人员发现 Gemini 1.5 Pro 正确回答真假陈述的比例为 46.7%,而 Flash 仅为 20%。这意味着,用硬币抛掷来回答关于这本书的问题,其准确性都比谷歌最新的机器学习模型要高。综合所有基准测试结果,两种模型在回答问题的准确性上均未能高于随机猜测的水平。


「我们注意到,与可以通过检索句子级别证据来解决的陈述相比,模型在验证需要考虑书中较大部分内容甚至整本书的陈述时更加困难,」卡尔平斯卡说。「从质上看,我们还观察到,模型在验证关于人类读者可以明确理解但未在文本中明确说明的隐含信息的陈述时,表现得尤为吃力。」


第二项研究由加州大学圣巴巴拉分校的研究人员共同撰写,测试了 Gemini 1.5 Flash(但未测试 1.5 Pro)对视频内容的「推理」能力,即搜索并回答有关视频内容的问题。


共同作者创建了一个图像数据集(例如,生日蛋糕的照片),并附上了关于图像中对象的问题(例如,「这个蛋糕上是哪部动画片的角色?」)。为了评估模型,他们随机挑选一张图片,并在其前后插入「干扰」图片,创建类似幻灯片的片段。


Flash 的表现并不理想。在一次测试中,模型需要从包含 25 张图片的「幻灯片」中抄写六个手写数字,Flash 正确率约为 50%。当需要抄写八个数字时,准确率下降到约 30%。


「在真实的图像问答任务中,我们测试的所有模型都特别困难,」加州大学圣巴巴拉分校的博士生、该研究的共同作者迈克尔·萨克森告诉笔者。「那一点点的推理,识别出数字在一个框架中并读取它可能是让模型崩溃的原因。」


2 谷歌在 Gemini 上的承诺过高


尽管这两项研究尚未经过同行评审,也没有针对 Gemini 1.5 Pro 和 1.5 Flash 的 200 万 token 上下文版本进行深入探讨(两者测试的是 100 万 token 上下文版本)。而且,Flash 在性能方面并不如 Pro 强大,谷歌将其宣传为一种低成本替代品。


尽管如此,这两项研究还是为谷歌从一开始就对 Gemini 进行过度承诺而未能兑现的说法增添了证据。研究人员测试的所有模型,包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3.5 Sonnet,表现都不佳。但谷歌是唯一一个在广告中强调上下文窗口大小的模型提供商。


总的来看,尽管谷歌在宣传 Gemini 时大力强调其上下文处理能力,但实际表现并未达到预期,用户在选择和使用这些工具时应保持谨慎。


「基于客观技术细节,声称『我们的模型可以处理 X 数量的 tokens』并没有错,」迈克尔·萨克森说。「但问题是,你能用它做什么有用的事情?」


总体来说,生成式 AI 正面临越来越多的审视,因为企业和投资者对这项技术的局限性感到沮丧。


在波士顿咨询公司最近的两项调查中,大约一半的受访者都是公司高管表示,他们不认为生成式 AI 会带来实质性的生产力提升,并且担心生成式 AI 工具可能带来的错误和数据泄露风险。PitchBook 最近报告称,连续两个季度,生成式 AI 在最早阶段的交易活动下降了 76%,从 2023 年第三季度的峰值骤降。


面对能够总结会议但会凭空捏造人物细节的聊天机器人和基本上等同于抄袭生成器的 AI 搜索平台,客户正在寻找有前途的差异化工具。谷歌有时笨拙地努力追赶其生成式 AI 竞争对手,迫切希望将 Gemini 的上下文处理能力作为其中一个差异化点。


然而,从现有研究和用户反馈来看,谷歌的 Gemini 在实际应用中并未达到预期效果。虽然其上下文窗口在技术上确实可以处理大量 tokens,但在实际任务中的表现却未能令人满意。这种落差使得客户和投资者对生成式 AI 的信心有所动摇,企业在选择这些工具时也变得更加谨慎。生成式 AI 的发展仍需克服许多挑战,才能真正实现其潜力。


但这种押注似乎为时过早。


「我们尚未找到真正展示‘推理’或‘理解’长文档的方法,基本上每个发布这些模型的团队都在拼凑他们自己的临时评估来支持这些说法,」卡尔平斯卡说。「在不知道长上下文处理如何实现的情况下,而公司并不会分享这些细节,很难说这些说法有多现实。」


谷歌对此未予置评。



萨克森和卡尔平斯卡都认为,解决生成式 AI 夸大其词问题的解药是更好的基准测试,以及对第三方批评的更大重视。萨克森指出,谷歌在其营销材料中大量引用的「干草堆中的针」测试,仅测量模型从数据集中检索特定信息(如名字和数字)的能力,而不是回答关于这些信息的复杂问题。


「所有使用这些模型的科学家和大多数工程师基本上都同意我们现有的基准文化是有问题的,」萨克森说,「因此,重要的是公众要理解这些包含『跨基准的一般智能』等数字的巨型报告应该被大打折扣地看待。」


总的来说,尽管生成式 AI 技术有着巨大的潜力,但现有的评估方法和实际表现之间存在很大差距。这意味着企业和公众在面对这些技术的宣传时需要更加谨慎,并依赖独立的第三方评估来获得更真实的性能表现。谷歌在 Gemini 模型上的承诺虽然引人注目,但仍需更多的验证和改进。

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

SinoDAO
数据请求中
查看更多

推荐专栏

数据请求中
在 App 打开