最好看的新闻,最实用的信息
01月30日 °C-°C
纽币 : 人民币=4.0483

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图)

1天前 来源: 差评X.PIN 原文链接 评论0条

马上就要过年了,差评君这几天还正忙着办年货,结果回家刚拿起手机,就被 AI 刷屏了。

还记得前几周跟六代机前后脚的 DeepSeek 不?他家那个 V3 模型震惊硅谷还没几天,现在又整出来一个绝世狠活。

如果说上次的 V3 模型,是让硅谷对中国 AI 侧目的话,那这次就直接是被掀了桌子了,他们发布了一个叫 DeepSeek-R1 的大模型,完全比得上 OpenAI-o1 那种,结果亮相以后引起的反响比上次还要大!

Meta 联合创始人看了都直呼改变历史,不惜溢美之词,还在后面的推文里跟 DeepSeek 的黑子对喷。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 1

参投过 OpenAI 、 Databricks 、 Character.AI 等知名企业的风投大佬马克 · 安德森也对 DeepSeek-R1 一顿猛夸,说它最令人惊叹、最印象深刻,是对世界的一份深刻馈赠。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 2

而其他 AI 爱好者和网友们也是纷纷选择用脚投票,每月几百块的 ChatGPT 拜拜了您内!

哥们这就下载免费的 DeepSeek !

然后就跟之前小红书爆火类似, DeepSeek 的应用商店排名迅速上升,现在已经成了 APPSTORE 排名第一的软件。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 3

不仅美国人被搞得友邦惊诧, DeepSeek 现在在国内更是红的没边。

这几天微博热搜上跟它相关的,每天都要挂好几个。

甚至不少 AI 行业的圈外人都深有感触,比如做黑神话的冯骥,也在微博上感慨良多,说这是 “ 国运级别的科技成果 ” 。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 4

就连差评编辑部的主编老师,体验完以后都直呼好用,能拿来做培训了。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 5

其他网友们实际体验下来,也纷纷表示这玩意确实牛逼。

不说别的,就拿跟 OpenAI-o1 对比来看,某网友让这俩分别写个脚本,要用 python 画一个红球在旋转的三角形里弹跳,结果左边 OpenAI 搞出来一坨,右边的 DeepSeek 倒是表现的相当流畅。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 6

一句话, o1 办得了的它能办, o1 办不了的它也能办,这简直是踢馆行为,一脚踹飞了国产 AI 只能屈居人后的牌匾。

不过除了扬眉吐气以外,估计不少差友也跟差评君一样有点疑问,毕竟 DeepSeek 这么一个以前都没怎么听说过的小厂,咋突然就能支棱起来、名扬世界了呢?

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 7

在暗涌采访 DeepSeek 创始人梁文锋的报道中,咱还是找到了一部分原因,因为这是一个相当重视创新的公司。

就拿之前在行业内大放异彩的 V2 、 V3 模型来说,这里面有一个非常重要的多头注意力机制,而这个技术最开始只是来自团队内一位年轻开发者的创意,随后大家一起在这个方案上钻研才最终搞定。

而这种创新驱动的技术突破在这个团队内并不罕见。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 8

不过比起单个技术点的突破,这次 R1 牛的地方却在于路径创新,甚至能改变整个 AI 领域的技术路线。

这么说吧,传统大模型训练里边,非常注重标注数据微调( SFT ),也就是让大模型先按人类标注好的标准答案来学习,学着说人话;如果想要大模型性能强些,那还要再在 SFT 基础上加一些强化学习( RL ),让大模型的理解能力更好。

换句话说,传统大厂搞AI 就像应试教育:先给海量标注数据搞填鸭式教学( SFT ),再拿强化学习( RL )做考前突击。结果就是训练出 GPT-4o 这种 " 别人家孩子 " ——解题步骤工整规范,但总感觉少了点灵性。

而更要命的是,这种训练需要花大量的资源,很多时间和资金都得花在数据标注跟微调上。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 9

但 DeepSeek 牛的地方在于,他们这个推理模型的核心全靠强化学习,完事用一个叫 GRPO 的算法给模型的回答打分,然后继续优化,这些步骤里一点 SFT 都不带用的。

这就相当于把孩子扔到鱿鱼游戏这种大逃杀剧本里,逼着模型自己琢磨最优路径,要是开摆做不出题就寄了。

于是在这种高强度的淬炼中,一个只花了 600 万美元,两个月时间锻造出来的宗门天才,出场就达到了世家大族花了几个亿资金练了几年的水平。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 10

实际上,早在几周前, DeepSeek 团队的研究人员就用这种思路,在原先那个 V3 的基础上完全靠强化学习搞出来了一个 R1-Zero 版本

前几天 DeepSeek 放出来的的技术报告里提到, Zero 版本在训练中进化速度非常明显,很快就能跟 OpenAI-o1 掰掰手腕了,在部分测试项目中甚至还高于 o1 。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 11

除了推理能力在明显进步,Zero 甚至在推理中表现出了主动复盘反思纠错的行为,在做题的过程中它突然就意识到自己做错了,然后开始回头演算。

官方的备注里说,大模型在这里突然用了一个拟人化的说法 aha moment ( 顿悟时刻 ),不仅 Zero“ 顿悟了 ” 了,研究人员看到这的时候也 “ 顿悟了 ” 。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 12

当其他 AI 还在背公式时, Zero 已经学会在草稿纸上画辅助线了,这完全可以说是 AI 推理上的里程碑事件:

没有预先的数据标注、没有微调,仅仅只靠模型的强化学习,模型就可以涌现出这个程度的推理能力。

这相当于给全世界搞 AI 的人上了一课,原来还可以这么玩。。。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 13

虽然推理能力已经被证明了,不过 Zero 的缺点也很明显。

纯强化学习养出来的 AI ,活脱脱就是个钢铁直男,模型输出的可读性较差,或者说,讲话不怎么符合人类预期。

这就好比一个偏科天才,数学题解得出神入化,但表达能力堪忧,让它写篇小作文,分分钟给你整出《 三体 》 ETO 既视感。

这时候就到了 SFT 上场表演的时候了, DeepSeek 团队在 Zero 强而有力的推理基础上,又增加了一部分 SFT 训练来让模型会说人话,于是, DeepSeek-R1 堂堂诞生!

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 14

神奇的是,在 Zero 基础上经过这么一套 " 文理双修 " 的骚操作后,优化后的 R1 推理能力甚至还进一步提高了,还是看测试数据:

STEM 测评中的数学题目正确率达到了 97.3% ,比 OpenAI-o1 还高一点,遥遥领先了属于是;代码测试中 R1 也高达 65.9% ,远超 Claude-3.5-Sonnet 的 38.9% 和 GPT-4o 的 32.9% ;

MMLU 和 AlpacaEval 2.0 综合知识测试中, R1 的胜率分别达到 90.8% 和 87.6% ,力压一众闭源大模型。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 15

用 Yann Lecun 的话说,这波是开源的伟大胜利!这下谁还敢说开源就是落后啊。( 战术后仰 )

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 16

不过要说 R1 的成功还只是证明了开源模型的实力,那 R1 技术报告最后一部分才是最离谱的。。。

在这部分他们说到,把 R1 的 SFT 数据蒸馏,喂给其他小模型进行 SFT ,会给其他开源模型来一波超级加强。

也就是说,只要把 R1 的 " 学习笔记 " 做成教辅资料,打包喂给其他的小模型 AI ,让它们也跟着抄作业,学会这些好学生的作业思路,结果居然能提高小模型的水平!

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 17

比如说把 R1 的错题本发给 Qwen 和 Llama 架构,结果抄完作业的 Qwen-7B 模型,在 AIME 测试中通过率达到了 55.5% ,已经赶上了参数体量大了快 5 倍的 QwQ-32B-Preview ( 50.0% );

像 70B 参数版看完了学霸笔记以后也跟打通了任督二脉似的,在 GPQA Diamond ( 65.2% )、 LiveCodeBench ( 57.5% )等任务中甚至闭都能跟闭源模型 o1-mini 掰掰手腕。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 18

换句话说, DeepSeek 这波这不仅验证了 " 小模型 + 好老师 " 的技术路线,更让个人开发者也能调教出匹敌 GPT-4 的 AI 。

小模型只需要按优秀大模型搞 SFT 抄作业就行了,压根不需要再在上面搞机器学习烧显卡。

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 19

于是现在全球开源社区已经疯了, HuggingFace 连夜成立项目组,准备复刻整个训练流程。不少网友都说这特么的才算 Open !这个项目也被叫做 Open R1 。

也有网友算过账:用 R1 方案训练 7B 模型,成本从百万美元级直接砍到二十万级别,显卡用量比挖矿还省,这简直是真正的科技平权行为,活该它爆火!

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 20

巧合的是,跟 R1 这波爆火同时,众多赛博基建大厂们的股价开始下跌,英伟达盘前跌了 10% 以上。不少人觉得或许是因为 DeepSeek 的逆天训练成本,影响了投资人的判断。

不过在海的这头,这样一个完全由中国团队做出来的爆火产品,却再一次向世界证明了中国年轻人的潜力和开创精神。

就像梁文锋说的, “ 我们经常说中国 AI 和美国有一两年差距,但真实的 gap 是原创和模仿之差……有些探索也是逃不掉的。 ”

“ 中国AI 不可能永远处在跟随的位置。 ”

顺带一提,今天小红书上有网友被DeepSeek的性能吓到了,担心自己被AI取代,而当她向DeepSeek 表达出担忧后,它给出了这样的回答:

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 21

直接干穿美国科技股,DeepSeek这国产模型凭啥?(组图) - 22

关键词: DeepSeeOpenAI美股
今日评论 网友评论仅供其表达个人看法,并不表明网站立场。
最新评论(0)
暂无评论


Copyright Media Today Group Pty Ltd.隐私条款联系我们商务合作加入我们

分享新闻电话: (02) 8999 8797

联系邮箱: [email protected] 商业合作: [email protected]网站地图

法律顾问:AHL法律 – 澳洲最大华人律师行新闻爆料:[email protected]