大参考

 找回密码
 立即注册

QQ登录

只需一步,快速开始

搜索
查看: 2325|回复: 0

戍天九思:深度求索两度轰动全球,中国AGI要来吗?

[复制链接]
发表于 2025-1-24 16:18:00 | 显示全部楼层 |阅读模式
  2024年12月26日,杭州“深度求索”初创公司,发布并同步开源第一代大模型:DeepSeek V3。

  2025年1月20日,深度求索公司发布并同步开源第二代大模型:DeepSeek R1。

  时隔不到一个月,深度求索公司两次轰动全球AI圈。

  中外对深度求索公司R1大模型的评价

  如果说DeepSeek V3震憾全球还只是低成本实现与GPT-4o和Claude Sonnet 3.5等顶尖模型相媲美的性能,那么,DeepSeek R1震憾全球的就是了不起的技术创新——用纯深度学习方法让AI自发涌现出推理能力,而且仅用十分之一的成本就实现了GPT-o1的推理能力。说明什么?说明这不是简单的模仿追赶,而是重大的创新突破!

  因此,很多业内人士甚至喊出了“DeepSeek接班OpenAI”的口号。

  斯坦福大学计算机科学教授、萨姆·奥特曼的导师吴恩达说:“我对DeepSeek的进展印象深刻。我认为他们能够以非常经济的方式训练模型。他们最新发布的推理模型,非常出色。我很欣赏世界各地的许多团队包括DeepSeek,为开源权重模型所做的贡献。所以,我觉得DeepSeek的进步是非常令人鼓舞的,‘加油’!”

  加州大学伯克利分校教授Alex也对DeepSeekR1表示赞赏,认为其展示了中国在AI领域的创新能力和技术实力。

  前Meta AI工作人员、知名AI论文推特作者Elvis强调,DeepSeek R1的论文堪称瑰宝,因为它探索了提升大语言模型推理能力的多种方法,并发现了其中更明确的涌现特性。

  另一位AI圈大V Yuchen Jin则认为,DeepSeek R1论文中提出的,模型利用纯深度学习方法引导其自主学习和反思推理这一发现,意义非常重大。

  英伟达GEAR Lab项目负责人Jim Fan在X平台上称,DeepSeek R1用通过硬编码规则计算出的真实奖励,而避免使用任何深度学习容易破解的学习奖励模型。这使得模型产生了自我反思与探索行为的涌现。Jim Fan 甚至认为,它们做了OpenAI本来应该做的事——开源。

  OpenAI副总裁甚至呼吁:公司全力以赴应对中国的AI挑战。

  那么,中国国内的反映呢?

  就在DeepSeek V3发布不久,DeepSeek团队中天才少女95后罗福莉被雷军以千万年薪挖角。她在北师大读硕期间,就在人工智能顶级国际刊物上发表过 8 篇论文。这是雷军用真金白银表达对DeepSeek V3的赞赏!

  2025年1月21日,深度求索公司创始人梁文峰参加了国务院李强总理主持召开的座谈会,并作重点发言,还上了央视新闻联播。这是国家高层对深度求索公司贡献的高度认可!

  ▲2025年1月21日,深度求索公司创始人梁文峰参加了国务院李强总理主持召开的座谈会

  DeepSeek V3的成功源于改进Transformer架构

  目前,国内拥有万卡GPU的企业不超过7家,幻方量化就是其中之一。它在2023年成立子公司“深度求索”,开始DeepSeek大模型研发,整个团队只有139人,远少于OpenAI的1200人。执掌这支战队的,是一个叫梁文峰的80后,也是幻方量化的创始人。

  2008年,浙大软件工程毕业的梁文峰,开始研究用计算机赚钱的路子,并决定搞量化投资。随后几年,开始探索对股指价格建模,并赚到了第一桶金,团队自营资金超过5亿元。

  2015年,梁文峰和浙大校友共同创立了幻方量化——试图用数学和人工智能,在中国打造一个像文艺复兴那样世界顶级的量化对冲基金。

  仅仅一年后,他们就上线了第一笔由AI驱动的实盘交易,并在随后将所有交易策略都AI化。新技术的加持,让幻方量化旗下的基金回报率远超同期沪深300指数。

  这样就推动幻方量化基金规模的持续攀升,到2021年超千亿元大关,位列国内量化四大天王之一。基金规模的膨胀对GPU算力需求也在急剧增长。于是,幻方量化开始堆算力。

  2019年,投资2亿元,建成拥有1100张GPU的“萤火一号”AI算力集群。2021年,又投资10亿元,建成拥有1万张A100的“萤火二号”,占地面积比10个篮球场还要大。

  2022年11月,美国OpenAI基于谷歌研究团队提出的Transformer新架构,发布ChatGPT引爆AI大模型时代。

  随后,全球互联网巨头沿着OpenAI的路线推进,很少有人质疑。但是,梁文峰团队却干了一件极其疯狂的事:他们试图改进Transformer架构。

  他们冒着失败的风险,大胆尝试了MLA(多头潜在注意力机制)、DeepSeekMoE(混合专家模型)等多种开创性技术。加上前几年囤下的海量算力芯片,终于,他们的梦想插上了翅膀。

  梁文峰团队创造了历史:DeepSeek V3横空出世,一夜震惊了硅谷。

  DeepSeek R1全球首次发现纯深度学习方法的价值

  在OpenAI o1推出之后,推理强化成了业界最关注的方法。通常,一个模型在训练过程中只会尝试一种固定训练方法来提升推理能力。

  但是,DeepSeek团队在R1的训练过程中,同时实验了三种截然不同的技术路径:直接强化学习训练(R1-Zero)、多阶段渐进训练(R1)和模型蒸馏,而且还都成功了。多阶段渐进训练方法和模型蒸馏都包含着很多创新元素,对行业有着重要影响。

  其中最令人激动的,还是直接强化学习这个路径。因为DeepSeek-R1-Zero是首个证明这一方法有效的模型。

  那么,训练AI的推理能力传统方法通常是什么?

  一般是通过在SFT(监督微调)加入大量的思维链(COT)范例,用例证和复杂的如过程奖励模型(PRM)之类的复杂神经网络奖励模型,来让模型学会用思维链思考。

  但是,DeepSeek-R1-Zero 只有一套最简单的奖励系统,来激发AI的推理能力。它只有两条规则:

  一是准确性奖励。准确性奖励模型评估响应是否正确。对了就加分,错了扣分。评价方法很简单:例如,在具有确定性结果的数学问题中,模型需要以指定格式提供最终答案;对于编程问题,可以使用编译器根据预定义的测试用例生成反馈。

  二是格式奖励。格式奖励模型强制要求模型将其思考过程置于<think>和</think>标签之间。没这么做就扣分,做了就加分。

  这好比老师出题,每道题让模型同时回答多次,然后用上面的奖惩规则给每个答案打分,根据追求高分、避免低分的逻辑更新模型。

  该流程大概是:输入问题 → 模型生成多个答案 → 规则系统评分 → GRPO计算相对优势 → 更新模型

  这种直接训练方法有三大显著优势:

  首先是训练效率的提升,整个过程可以在更短的时间内完成。

  其次是资源消耗的降低,由于省去了SFT和复杂的奖惩模型,计算资源的需求大幅减少。

  更重要的是,这种方法真的让模型学会了思考,而且是以“顿悟”的方式学会的。在完全不同的编程竞赛平台Codeforces上,DeepSeek-R1-Zero达到了超过96.3%人类选手的水平。这种跨域表现表明,模型不是在死记硬背特定领域的解题技巧,而是掌握了某种普适的推理能力。

  DeepSeek-R1还展现出与OpenAI o1相当甚至某些方面更优的性能。在MATH基准测试上,R1达到了77.5%的准确率,与o1的77.3%相近;在更具挑战性的AIME 2024上,R1的准确率达到71.3%,超过了o1的71.0%。在代码领域,R1在Codeforces评测中达到了2441分的水平,高于96.3%的人类参与者。

  然而,DeepSeek-R1 Zero的潜力似乎更大。它在AIME 2024测试中使用多数投票机制时达到的86.7%准确率——这个成绩甚至超过了OpenAI的o1-0912。这种“多次尝试会变得更准确”的特征,暗示R1-Zero可能掌握了某种基础的推理框架,而不是简单地记忆解题模式。

  笔者认为,DeepSeek-R1-Zero的纯深度学习方法,与当年谷歌围棋AlphaGo Zero有异曲同工之妙,都是“自学成才”的模型,这可能才是通往通用人工智能(AGI)的捷径。

  这里需要说明一点:虽然深度求索公司发布并同步开源的第二代大模型名称叫DeepSeek R1,但其实包含有三条技术路线的模型——R1-Zero、R1和模型蒸馏。

  纯深度学习方法或是通向AGI的捷径

  为什么DeepSeek R1发布后圈内人士开始关注纯强化学习方法?因为它打开了AI 进化的一条新路径。

  R1-Zero——这个完全通过强化学习训练出来的AI模型,展现出了令人惊讶的通用推理能力。它不仅在数学竞赛中取得了惊人成绩。更重要的是,R1-Zero不仅是在模仿思考,而是真正发展出了某种形式的推理能力。

  因为在以往的训练方法中,尤其在监督微调中使用训练好的神经网络来评估质量的话,模型可能学会触发奖励模型的特定模式,生成对奖励模型“口味”的内容,而不是真正提升推理能力。

  也就是说,AI模型找到了获得高奖励但实际上违背训练目标的投机取巧方式。这就是我们常说的奖励欺骗。但R1-Zero用极简的奖励规则基本避免了奖励欺骗的可能性——规则太简单了,没有什么“口味”可以去模仿。模型在这个情况下发展出的推理能力更可信,也更自然。

  这一发现可能会改变我们对机器学习的认识:传统的AI训练方法可能一直在重复一个根本性的错误,我们太专注于让AI模仿人类的思维方式了,业界需要重新思考监督学习在AI发展中的角色。通过纯粹的强化学习,AI系统似乎能够发展出更原生的问题解决能力,而不是被限制在预设的解决方案框架内。

  虽然R1-Zero在输出可读性上存在明显缺陷,但这个“缺陷”本身可能恰恰印证了其思维方式的独特性。就像一个天才儿童发明了自己的解题方法,却难以用常规语言解释一样。这可能提示我们:真正的通用人工智能可能需要完全不同于人类的认知方式。

  这才是真正的纯强化学习。就像著名教育家皮亚杰的理论:真正的理解来自于主动建构,而不是被动接受。

  笔者认为,创新的本质就是低成本解决问题!DeepSeek的成功既在低成本,也难在低成本。没有另起炉灶的创新,哪有低成本解决问题!

  由此可见,纯深度学习方法可能是通向AGI的一条捷径!这也是DeepSeek的成功让萨姆。奥特曼羡慕嫉妒恨的原因——说什么“复制者没有出路”。这就是标准的美国式打压!其实,萨姆。奥特曼只不过是一个精于投机的CEO,并不是AI技术大牛。

  1月22日,特朗普宣布:OpenAI将与软银、甲骨文共同建立一个新的“星际之门计划”合资公司,计划在未来四年内投资5000亿美元,为OpenAI在美国建设新的AI基础设施。

  但是,美国已经晚了三年!中国早在2022年2月就出台《关于同意在京津冀、长三角、粤港澳大湾区、成渝、内蒙古、贵州、甘肃、宁夏等8地启动建设国家算力枢纽节点,并规划了10个国家数据中心集群的批复》,标志着“东数西算”工程正式全面启动。

  其实,美国的“星际之门计划”就是一个幻想:三家公司最有钱的软银全部家当不过1000亿美元,到哪里去筹措5000亿!更何况美国没有配套的电力保障,又没有覆盖全国的5G网络,即使美国的AI基础设施建成了,也难以运转起来,难以普及应用。

  正如李开复所说:中国的应用是世界顶尖的。微信远远打败WhatsApp,TikTok抖音远远打败Instagram,都是碾压美国的应用。所以,当 AI 应用时代来临,也是中国人扬眉吐气之时,因为我们也许模型还会落后美国一段时间,但是我们的应用能力是绝对碾压美国的。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则




QQ|手机版|小黑屋|大参考 |

GMT+8, 2025-4-19 01:09 , Processed in 0.140729 second(s), 17 queries .

 

Powered by 大参考 X3.4 © 2001-2023 dacankao.com

豫公网安备41010502003328号

  豫ICP备17029791号-1

 
快速回复 返回顶部 返回列表