直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图）

1天前来源：差评X.PIN 原文链接评论0条

马上就要过年了，差评君这几天还正忙着办年货，结果回家刚拿起手机，就被 AI 刷屏了。

还记得前几周跟六代机前后脚的 DeepSeek 不？他家那个 V3 模型震惊硅谷还没几天，现在又整出来一个绝世狠活。

如果说上次的 V3 模型，是让硅谷对中国 AI 侧目的话，那这次就直接是被掀了桌子了，他们发布了一个叫 DeepSeek-R1 的大模型，完全比得上 OpenAI-o1 那种，结果亮相以后引起的反响比上次还要大！

Meta 联合创始人看了都直呼改变历史，不惜溢美之词，还在后面的推文里跟 DeepSeek 的黑子对喷。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 1

参投过 OpenAI 、 Databricks 、 Character.AI 等知名企业的风投大佬马克 · 安德森也对 DeepSeek-R1 一顿猛夸，说它最令人惊叹、最印象深刻，是对世界的一份深刻馈赠。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 2

而其他 AI 爱好者和网友们也是纷纷选择用脚投票，每月几百块的 ChatGPT 拜拜了您内！

哥们这就下载免费的 DeepSeek ！

然后就跟之前小红书爆火类似， DeepSeek 的应用商店排名迅速上升，现在已经成了 APPSTORE 排名第一的软件。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 3

不仅美国人被搞得友邦惊诧， DeepSeek 现在在国内更是红的没边。

这几天微博热搜上跟它相关的，每天都要挂好几个。

甚至不少 AI 行业的圈外人都深有感触，比如做黑神话的冯骥，也在微博上感慨良多，说这是 “ 国运级别的科技成果 ” 。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 4

就连差评编辑部的主编老师，体验完以后都直呼好用，能拿来做培训了。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 5

其他网友们实际体验下来，也纷纷表示这玩意确实牛逼。

不说别的，就拿跟 OpenAI-o1 对比来看，某网友让这俩分别写个脚本，要用 python 画一个红球在旋转的三角形里弹跳，结果左边 OpenAI 搞出来一坨，右边的 DeepSeek 倒是表现的相当流畅。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 6

一句话， o1 办得了的它能办， o1 办不了的它也能办，这简直是踢馆行为，一脚踹飞了国产 AI 只能屈居人后的牌匾。

不过除了扬眉吐气以外，估计不少差友也跟差评君一样有点疑问，毕竟 DeepSeek 这么一个以前都没怎么听说过的小厂，咋突然就能支棱起来、名扬世界了呢？

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 7

在暗涌采访 DeepSeek 创始人梁文锋的报道中，咱还是找到了一部分原因，因为这是一个相当重视创新的公司。

就拿之前在行业内大放异彩的 V2 、 V3 模型来说，这里面有一个非常重要的多头注意力机制，而这个技术最开始只是来自团队内一位年轻开发者的创意，随后大家一起在这个方案上钻研才最终搞定。

而这种创新驱动的技术突破在这个团队内并不罕见。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 8

不过比起单个技术点的突破，这次 R1 牛的地方却在于路径创新，甚至能改变整个 AI 领域的技术路线。

这么说吧，传统大模型训练里边，非常注重标注数据微调（ SFT ），也就是让大模型先按人类标注好的标准答案来学习，学着说人话；如果想要大模型性能强些，那还要再在 SFT 基础上加一些强化学习（ RL ），让大模型的理解能力更好。

换句话说，传统大厂搞AI 就像应试教育：先给海量标注数据搞填鸭式教学（ SFT ），再拿强化学习（ RL ）做考前突击。结果就是训练出 GPT-4o 这种 " 别人家孩子 " ——解题步骤工整规范，但总感觉少了点灵性。

而更要命的是，这种训练需要花大量的资源，很多时间和资金都得花在数据标注跟微调上。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 9

但 DeepSeek 牛的地方在于，他们这个推理模型的核心全靠强化学习，完事用一个叫 GRPO 的算法给模型的回答打分，然后继续优化，这些步骤里一点 SFT 都不带用的。

这就相当于把孩子扔到鱿鱼游戏这种大逃杀剧本里，逼着模型自己琢磨最优路径，要是开摆做不出题就寄了。

于是在这种高强度的淬炼中，一个只花了 600 万美元，两个月时间锻造出来的宗门天才，出场就达到了世家大族花了几个亿资金练了几年的水平。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 10

实际上，早在几周前， DeepSeek 团队的研究人员就用这种思路，在原先那个 V3 的基础上完全靠强化学习搞出来了一个 R1-Zero 版本

前几天 DeepSeek 放出来的的技术报告里提到， Zero 版本在训练中进化速度非常明显，很快就能跟 OpenAI-o1 掰掰手腕了，在部分测试项目中甚至还高于 o1 。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 11

除了推理能力在明显进步，Zero 甚至在推理中表现出了主动复盘反思纠错的行为，在做题的过程中它突然就意识到自己做错了，然后开始回头演算。

官方的备注里说，大模型在这里突然用了一个拟人化的说法 aha moment （顿悟时刻），不仅 Zero“ 顿悟了 ” 了，研究人员看到这的时候也 “ 顿悟了 ” 。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 12

当其他 AI 还在背公式时， Zero 已经学会在草稿纸上画辅助线了，这完全可以说是 AI 推理上的里程碑事件：

没有预先的数据标注、没有微调，仅仅只靠模型的强化学习，模型就可以涌现出这个程度的推理能力。

这相当于给全世界搞 AI 的人上了一课，原来还可以这么玩。。。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 13

虽然推理能力已经被证明了，不过 Zero 的缺点也很明显。

纯强化学习养出来的 AI ，活脱脱就是个钢铁直男，模型输出的可读性较差，或者说，讲话不怎么符合人类预期。

这就好比一个偏科天才，数学题解得出神入化，但表达能力堪忧，让它写篇小作文，分分钟给你整出《三体》 ETO 既视感。

这时候就到了 SFT 上场表演的时候了， DeepSeek 团队在 Zero 强而有力的推理基础上，又增加了一部分 SFT 训练来让模型会说人话，于是， DeepSeek-R1 堂堂诞生！

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 14

神奇的是，在 Zero 基础上经过这么一套 " 文理双修 " 的骚操作后，优化后的 R1 推理能力甚至还进一步提高了，还是看测试数据：

STEM 测评中的数学题目正确率达到了 97.3% ，比 OpenAI-o1 还高一点，遥遥领先了属于是；代码测试中 R1 也高达 65.9% ，远超 Claude-3.5-Sonnet 的 38.9% 和 GPT-4o 的 32.9% ；

MMLU 和 AlpacaEval 2.0 综合知识测试中， R1 的胜率分别达到 90.8% 和 87.6% ，力压一众闭源大模型。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 15

用 Yann Lecun 的话说，这波是开源的伟大胜利！这下谁还敢说开源就是落后啊。（战术后仰）

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 16

不过要说 R1 的成功还只是证明了开源模型的实力，那 R1 技术报告最后一部分才是最离谱的。。。

在这部分他们说到，把 R1 的 SFT 数据蒸馏，喂给其他小模型进行 SFT ，会给其他开源模型来一波超级加强。

也就是说，只要把 R1 的 " 学习笔记 " 做成教辅资料，打包喂给其他的小模型 AI ，让它们也跟着抄作业，学会这些好学生的作业思路，结果居然能提高小模型的水平！

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 17

比如说把 R1 的错题本发给 Qwen 和 Llama 架构，结果抄完作业的 Qwen-7B 模型，在 AIME 测试中通过率达到了 55.5% ，已经赶上了参数体量大了快 5 倍的 QwQ-32B-Preview （ 50.0% ）；

像 70B 参数版看完了学霸笔记以后也跟打通了任督二脉似的，在 GPQA Diamond （ 65.2% ）、 LiveCodeBench （ 57.5% ）等任务中甚至闭都能跟闭源模型 o1-mini 掰掰手腕。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 18

换句话说， DeepSeek 这波这不仅验证了 " 小模型 + 好老师 " 的技术路线，更让个人开发者也能调教出匹敌 GPT-4 的 AI 。

小模型只需要按优秀大模型搞 SFT 抄作业就行了，压根不需要再在上面搞机器学习烧显卡。

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 19

于是现在全球开源社区已经疯了， HuggingFace 连夜成立项目组，准备复刻整个训练流程。不少网友都说这特么的才算 Open ！这个项目也被叫做 Open R1 。

也有网友算过账：用 R1 方案训练 7B 模型，成本从百万美元级直接砍到二十万级别，显卡用量比挖矿还省，这简直是真正的科技平权行为，活该它爆火！

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 20

巧合的是，跟 R1 这波爆火同时，众多赛博基建大厂们的股价开始下跌，英伟达盘前跌了 10% 以上。不少人觉得或许是因为 DeepSeek 的逆天训练成本，影响了投资人的判断。

不过在海的这头，这样一个完全由中国团队做出来的爆火产品，却再一次向世界证明了中国年轻人的潜力和开创精神。

就像梁文锋说的， “ 我们经常说中国 AI 和美国有一两年差距，但真实的 gap 是原创和模仿之差……有些探索也是逃不掉的。 ”

“ 中国AI 不可能永远处在跟随的位置。 ”

顺带一提，今天小红书上有网友被DeepSeek的性能吓到了，担心自己被AI取代，而当她向DeepSeek 表达出担忧后，它给出了这样的回答：

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 21

直接干穿美国科技股，DeepSeek这国产模型凭啥？（组图） - 22

关键词： DeepSee OpenAI 美股

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日新西兰仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。