最好看的新闻,最实用的信息
11月22日 °C-°C
纽币 : 人民币=4.2441

谷歌竟然“造假”?我们测了一下……(组图)

2023-12-08 来源: 华尔街见闻 原文链接 评论3条

7日凌晨,谷歌YouTube官方账号发布的一个名为“与Gemini亲密互动:与多模态AI交互”的视频引发了网友围观,一天之内观看次数达到140万次。

这个视频之所以能吸引这么多目光,是因为它展示了谷歌史上最强Gemini多模态模型在交互方面令人印象深刻的表现。

在这段时长6分22秒的视频中,Gemini对输入的语音、图像等提示做出了灵活、流畅的响应和理解,展现出强大的多模态理解和交互能力。

然而,据科技媒体TechCrunch最新报道,有用户仔细研究该视频后,发现Gemini的惊艳表现几乎都是“伪造”的。

视频中Gemini对画面的描述、对玩具识别和提问的回答等互动都是人为设置的,视频跳过了部分提示以及模型的推理过程,给观众营造一种Gemini智能又敏捷的假象。

此外,Gemini第一波用户反馈也不太好,见闻君测试后和网友的反馈一样:不如GPT。

谷歌竟然“造假”?我们测了一下……(组图) - 1

Gemini可能没有那么智能

Gemini在视频中展示了多种交互技能,比如识别玩具鸭、跟踪杯子戏法中的球、识别手势、重排星球顺序等。

比如,在第一个演示中,Gemini识别了一个鸭子素描从一条线到完整画面的演变过程。当演示者将鸭子素描填满蓝色颜料时,Gemini指出鸭子通常是棕色、白色或黑色的,不会是蓝色的。

然后,当Gemini看到一个蓝色玩具鸭时,它惊讶地说道:"这是什么玩意!"接下来它回答了关于这个玩具鸭的各种语音提问。

整段视频中,Gemini的反应都很快,回答纵享丝滑,但问题在于,它的反应不够真实。

媒体通过捕捉素材来测试Gemini在各种场景下的反应能力,重新制作了一个演示视频。然后,用视频素材中的静态画面框提示Gemini,并通过文字输入进行提示。

结果显示, Gemini确实具备视频中展示的某些能力,但并没有真正如视频所示的那样快速、流畅地完成所有互动任务。

但据TechCrunch称,视频中展示的交互效果,其实并不是真实的即时交互,而是事先设置好的。

视频用的是一系列特意准备的文本提示,以及配套的静态图片,通过挑选和剪裁这些预设素材,制作成真实交互的效果。

这样做其实是为了误导观众,让人们相信视频中展示的是Gemini真正的即时交互能力。但很可能的是,Gemini在交互速度、准确性等方面均没有视频中展示的那样强大。

谷歌竟然“造假”?我们测了一下……(组图) - 2

视频和文档展示的提示,差别很大

值得注意的是,当TechCrunch对比视频和谷歌发布的文档演示时,发现两者的提示存在差异。

比如,在视频的2点45分处,一只手做出了一系列手势,没有配合语音提示。Gemini很快回应道:“我知道你在做什么!你在玩石头、剪刀、布!”

谷歌竟然“造假”?我们测了一下……(组图) - 3

但谷歌的Gemini能力文档一开始就明确指出,该模型不能通过识别单个手势来推理,提示必须同时展示全部3个手势,并给提示词“这是什么游戏”,只有这样它才能识别出“石头、剪刀、布”。

谷歌竟然“造假”?我们测了一下……(组图) - 4

所以视频中的表现完全不符合文档所述的提示限制,无法展示出Gemini的真正识别能力。

另外,Gemini识别星球顺序的场景也可能具有欺骗性。

演示者展示了贴有太阳、土星和地球涂鸦的便利贴,询问Gemini行星顺序是否正确,Gemini给出了正确的太阳、地球、土星顺序。

但文档显示真正的提示是,“这是正确的顺序吗?思考离太阳的距离并解释你的推理”。

谷歌竟然“造假”?我们测了一下……(组图) - 5

这两种交互感觉上完全不同,视频演示看起来像智能的及时评估,而在真正的交互中,Gemini需要暗示性很强的提示。

另外,在追踪杯子中纸团的演示中,也出现了不同于文档记录的提示的情况。

值得注意的是,如果一开始视频就明确表示“这是对我们研究人员测试过的交互的艺术化呈现”,大家都不会有异议,因为这类视频本来就兼具事实和理想色彩。

但是这个视频叫做“与Gemini亲密互动”,并标榜是 “我们最喜欢的交互”,这实际就是说,视频中的交互就是真实交互的意思,但实际上并不是。

谷歌甚至没有说明,视频中展示的模型是已经面市的Gemini Pro版本,还是预计明年发布的 Gemini Ultra。

谷歌竟然“造假”?我们测了一下……(组图) - 6

Gemini第一波用户反馈出来了:不太好!

目前,Gemini的“精简版”Gemini Pro已经登陆谷歌AI聊天机器人Bard(仅限英文版)。根据测试过的用户在X上的反馈,效果似乎没有那么理想,在基本事实、数学问题、生成新闻摘要等方面的表现可以说得上拉胯,甚至不如已经发布一年多的GPT-3.5.

比如,一位用户向Gemini询问,谁是2023年的奥斯卡最佳男主角,得到的是布兰登·格里森(Brendan Gleeson)这个错误的回答,不是真正的获奖者布兰登·弗雷泽(Brendan Fraser)。谷歌竟然“造假”?我们测了一下……(组图) - 7

明明完全具备访问互联网的能力,但Gemini连奥斯卡得主这一随手谷歌一下就知道的基本事实都出错,着实耐人寻味。

更离谱的是,Techcrunch记者向Gemini提出了同样的问题,它给出了不同的错误答案:奥斯汀·巴特勒(Austin Butler)。谷歌竟然“造假”?我们测了一下……(组图) - 8

而且,如上图所示,Gemini在其他奖项上也是一通胡编乱造。

获得95届奥斯卡最佳纪录片奖的电影是《纳瓦尔尼》,而非《所有的美丽与血泪》,获得最佳国际影片奖的是《西线无战事》,但Gemini给出的答案也是《所有的美丽与血泪》......

此外,科幻小说作家Charlie Stross也在最近发布的一篇博文中发现了更多的谬误,Gemini Pro还会编造其他信息,比如说称Stross本人为开发Linux内核做出了贡献,但实际上他从未参与过和Linux内核有关的项目。

Techcrunch记者又要求Gemini给出一个6个字母的法语单词,但Gemini的回答有7个字母。谷歌竟然“造假”?我们测了一下……(组图) - 9

不过,需要指出的是,华尔街见闻此前文章强调过,涉及控制字符数量的场景一向是AI的弱项,这是由于生成式AI背后的技术是上下文预测,基础是token而非字符。

华尔街见闻给ChatGPT下达了同样的任务,后者也给出了一个包含7个字母的错误答案。谷歌竟然“造假”?我们测了一下……(组图) - 10

在总结新闻方面,Gemini的表现似乎过度谨慎了——谨慎到影响了基本的使用体验。

如下图,一位X用户仅仅是要求它列出巴以冲突的最新情况,并没有要求Gemini做出评判,但Gemini却告诉用户:

要不你自己家上谷歌搜一下吧。

谷歌竟然“造假”?我们测了一下……(组图) - 11

华尔街见闻尝试了同样的问题,也得到了一样的建议:自己去搜吧!

谷歌竟然“造假”?我们测了一下……(组图) - 12

相比之下,ChatGPT则给出了一个附有引文的列表式新闻摘要:

谷歌竟然“造假”?我们测了一下……(组图) - 13

不过,有趣的是,当记者提问Gemini关于俄乌冲突的最新消息时,Gemini却没有回避,而是生成了一份新闻摘要。但这些信息已经过时一个多月了。

谷歌竟然“造假”?我们测了一下……(组图) - 14

那么,写代码的能力呢?这可是AI对人类生产力提升最大的关键应用领域之一。

但X用户的反馈表明,虽然Gemini在写代码方面比之前版本的Bard有所改进,但Gemini的基础代码能力非常一般,甚至不如比它早得多的ChatGPT。

谷歌竟然“造假”?我们测了一下……(组图) - 15

另一位X用户测试用AI生成一个小游戏的代码,结果ChatGPT第一次尝试就写出了代码,而Gemini需要3次。

总结一下,网友测试的反馈大概就是——不如GPT。

当然,目前能上手使用的Gemini Pro并不是 Gemini 性能最强的版本,最强的Gemini Ultra要等到明年某个时候才会在谷歌 Bard 和其他产品中推出,谷歌Gemini Pro对标的是比它早一代的GPT-3.5。

显然,Gemini Pro还有很大的进步空间。而最强的Ultra是不是像谷歌演示的那样神乎其神?要等到明年才能见分晓了。


今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(3)
coffee小豆子 2023-12-08 回复
唉,最近手机上的App更新频率真是太高了!每天都要更新一堆,有时候还不知道更新了什么!
562要加油 2023-12-08 回复
微博上的热搜又被一些无聊的八卦新闻霸占了,我只是想看看有没有有趣的话题讨论,却被这些无聊的新闻烦到了!
亲爱的维尼2010 2023-12-08 回复
抖音的哈哈笑话专栏里越来越多的广告了,真的好烦!我就是想看笑话,不想被广告打扰!


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]