Deepseek 带来的意义投射
2025-02-03 14:17
胖车库
2025-02-03 14:17
订阅此专栏
收藏此文章

前言

Deepseek 火了,就连我外国同学们也接连发给我一些个赞扬和莫名的激动,俗话说真外行人凑热闹,(装)内行人写公众号。还有些个盼着英伟达股价多跳跳,赶紧激活炒股账号。Andrew NG 说的好, as if it was a Rorschach test that allowed many people to project their own meaning onto it,人们借此将自个儿的意义都投射到这件事上面。

今天花了大半天时间看 Deepseek R1 [1]的论文。我不是内行,只是也随大流,特别好奇到底发生了什么。疑惑主要有两个,DS 这波创新,对芯片行业的影响(例如:对 GPU 的需求)。咋叙事就从 GPU、扩展大法(scaling law) 为王,到不像你想的那么重要了呢?第二,DS 到底做出了哪些方面的创新?

老黄的假内部信,新加坡前总理夫人的技术点评,Andrew NG 的力挺,压力山大王的恐慌,奥特曼的开源反思... 铺天盖地的分析和各式声音中,有几个我觉得特别有意思。

Deepseek 的创新


Deepseek R1 论文

推荐阅读:波斯兔子的技术科普文“Deepseek R1 可能找到了超越人类的办法”

强化学习(RL):训练模型的思维链 (CoT)

DS 一项重要的创新是,使用强化学习 (RL) 来训练模型的思维链 (CoT):从普通的预训练模型开始,在第二阶段使用强化学习推理思维链,被称为 reasoning 模型,OpenAI 的 o1/o3 类模型就是此类。于之前模型的区别在于人类反馈不再重要

Reasoning 的任务主要是数学和代码两类,因为这两种需要结构化的逻辑思维,和分步骤解决问题的能力。模型在数学和编程竞赛题集上训练,比如 AIME 2024 (American Invitational Mathematics Examination), MATH-500 Benchmark, Codeforces (Coding Competition) 和 Engineering and Real-World Coding Tasks。

具体来说,

Deepseek-R1-zero

在基础模型上使用不带 SFT(监督微调)的纯 RL(强化学习)来开发 Deepseek-R1-Zero,该模型用于验证 LLM 的推理能力(类似 GPT 1o 但甚至更好)。

Deepseek-R1

Deepseek-R1-Zero 虽好,但老是混杂语言。为了解决 Deepseek-R1-Zero 模型的可读性差和语言混合问题,DS 在 R1 模型中开发了一个结合了 2 个 RL 和 2 个 SFT 的 pipeline(就像一个解决学生知识混合问题的学习计划)。这个过程的结构为 SFT->RL->SFT->RL,具体来说是从冷启动数据开始到实践和细化多阶段训练,包含了人类反馈的环节。

1.SFT 第一阶段(学习开始) 

模型拿到了带有参考答案的家庭作业。它研究这些例子来学习如何做“一些事情”,比如回答事实问题、清晰地写作和解释事物。

2.强化学习第一阶段(学习独立思考) 

类似于视频游戏,玩家通过做出正确的动作会获得积分或奖励。如果模型给出了好的答案,它就会得到奖励;如果没有,它会再次尝试并从错误中学习。

3.SFT 阶段 2(新的和改进的训练数据) 

教师挑选模型(学生)的最佳答案并将其与其他高质量答案的示例相结合,该过程称为拒绝抽样(rejection sampling)。模型再次研究这些以进一步改进。

4.强化学习第 2 阶段(结合人的偏好进行细化和调整) 

基于上一阶段,系统会奖励那些更符合人们想要看到的内容的答案,比如礼貌、清晰和准确。评估人类偏好的答案是通过结合人类反馈和自动奖励模型来完成的,也就是 RLHF(带有人类反馈的强化学习)。

波斯兔子的解释更好一些: 

“但 R1-Zero 模型只是单纯地进行强化学习,并没有进行监督学习,所以它没有学会人类的问答模式,无法回答人类的问题。


所以 DeepSeek 团队:


1. 先收集了少量高质量的 Chain-of-Thought(CoT)数据,对 V3 模型进行初步的监督微调,解决了输出语言不一致问题,得到冷启动模型。

2. 然后,他们在这个冷启动模型上进行类似 R1-Zero 的纯 RL 训练,并加入语言一致性奖励。 

3. 最后,为了适应更普遍、广泛的非推理任务(如写作、事实问答),他们构造了一组数据对模型进行二次微调。

4. 结合推理和通用任务数据,使用混合奖励信号进行最终强化学习。”

碎瓜,公众号:波斯兔子Deepseek R1 可能找到了超越人类的办法

知识蒸馏(Distillation): 为小模型插上推理的翅膀

一点儿考古

Distillation 概念根源于 Rich Caruana 2006 年的论文 Model Compression [2],当时叫做压缩。

"A version of this strategy has already been pioneered by Rich Caruana and his collaborators In their important paper they demonstrate convincingly that the knowledge acquired by a large ensemble of models can be transferred to a single small model." [3]

10 年之后(2015)被 Hinton 在 Distilling the knowledge in a neural network. arXiv 2015 [3] 这篇论文中引用,开启了知识提炼的当代实践。证明了蒸馏模型可以实现与(可靠的)大模型相当的性能,并在 MINST 辨别手写体和语音识别的任务中得到了验证。

DS 提炼的是大模型的推理能力,为小模型插上推理的翅膀;并验证了被大模型带,比单纯进行 RL 的效果更好。

Hinton 解释什么是 distillation 和 co-distillation?

更有趣的是,除了一般的教师 - 学生蒸馏模型,Hinton 还解释了模型之间的互相蒸馏(co-distillation between models),也叫做合作学习(collaborative learning)。是什么意思呢?

传统上,蒸馏涉及训练一个大模型(或模型集合),然后将其知识压缩成一个较小的模型。在合作蒸馏中,多个较小模型(例如,10 个小网络)同时训练,在训练期间,每个模型都受到其他模型的预测(软化输出)的影响。这产生了一种对等压力,每个模型都会调整其输出以与对等点保持一致。

  • 初始独立学习: Hinton 强调需要在训练开始时让模型独立学习。 如果模型被迫过早达成一致,它们可能会变得过于相似,这限制了它们探索不同解决方案的能力。 在一些初始学习之后,模型开始通过同意其他人的软化输出来共享知识。

  • 合作蒸馏的好处: 单独共同提炼的模型比单独训练而不进行协作的模型表现更好。 尽管集成(所有模型的综合输出)没有太大改进,但每个单独模型通过这种协作变得更强大。 这个过程有助于为每个模型创建更强大的泛化能力,如果模型看到数据的不同子集,这将特别有益。模型通过知识转移分享关于看不见的数据的见解,就像科学家如何分享研究发现以提高集体理解一样。

Hinton 将这个过程比作科学界的工作方式,就像科学家通过直接观察数据和读彼此的出版物(即向他人学习)来收集知识,站在彼此的肩膀上。同样,神经网络相互分享它们的预测,以创建跨模型的知识“共识”。

尽管现在各家模型还互相提防,你可别提炼了我的知识。没准儿将来这些“各有千秋”的模型(GPT,Claude,Deepseek,Gemini,Mistral,xAI ... ) 或者提炼了大模型的小臭皮匠们可以合作起来,互相学习,也许通往 AGI 的最快途径。(天呐想想还挺感动的

在 semi-analysis 的报告里,也提到了 DS 使用 distillation 的创造性:

“说到提炼,R1 论文中最有趣的部分可能是能够通过使用推理模型的输出对非推理小型模型进行微调,将其转变为推理模型。数据集策展总共包含 80 万个样本,现在任何人都可以使用 R1 的 CoT 输出来制作自己的数据集,并在这些输出的帮助下制作推理模型。我们可能会看到更多小型模型展示推理能力,从而增强小型模型的性能。”

青投创新,公众号:青投创新深度|SemiAnalysis 万字长文:DeepSeek 是当今最好的开源实验室,但 GPU 和训练成本可能被低估了

英伟达的 17% selloff

关于英伟达的股价,我觉得老塔最近的采访讲的很有趣。作为一个投资量化界的哲学家,也是把各色天鹅研究的明明白白的人(详情请阅读随机漫步系列)。

  • 对于这个行业所面临的风险来说,相对于它的上涨,17% 不算是一个大的回落。从 1 到 10 你不会觉得多惊奇,但是若从 10 降到 9,你一定会恐慌。 

  • 当人们将 AI 产业的叙事全部寄托在英伟达的芯片上面。也就是把信心都集中在一个共识:最能从 ai 中获利的公司就是英伟达,而不是别人,全世界(不止 ai 的发展,最前沿技术的发展)都得依赖它的芯片。任意一个其他方面的“技术创新”(不管是软件或者其他更好的想法)对于此叙事的冲击,都可以视作“灰天鹅”——指的是那些已知的可能发生,但是假设其不会发生的事。

  • 这反映了经济结构的脆弱性,反映了基于极少数的股票所积累起的大市值的脆弱性。光是英伟达自己,3 trillion 的市值,那么脆弱性首当其冲的便是最耀眼的那个。

  • 如果回看历史,你在 1998/9 年想投资互联网产业,你会投资一家公司叫 Alta vista,后来 google 横空出世。

  •  让人们认清现实的开始,这个系统并不是坚不可摧,也并不是只有一种叙事的可能。

The cost of GPU 硬件和成本

推荐阅读:Semianalysis report [4] , Deeplearning.ai blog [5]

关于模型对英伟达 GPU 的使用情况,也是关注的焦点,Andrew NG 的文章中说:

OpenAI 的 o1 每百万输出代币成本为 60 美元;DeepSeek R1 成本为 2.19 美元。

在美国 AI 芯片禁运的推动下,DeepSeek 团队不得不在许多优化方面进行创新,以便在性能较差的 H800 GPU 而不是 H100 上运行,最终导致模型的训练(不包括研究成本)计算成本低于 600 万美元。

Semianalysis 在文章"DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts"里也提出了关于 Deepseek GPU 的使用“猜测”:

"我们认为他们拥有大约 50,000 个 Hopper GPU,这与某些人声称的 50,000 个 H100 并不相同。Nvidia 按照不同的规定制造了不同的 H100 变体(H800、H20),目前只有 H20 可供中国型号供应商使用。请注意,H800 具有与 H100 相同的计算能力,但网络带宽较低。

我们认为 DeepSeek 拥有大约 10,000 台 H800 和大约 10,000 台 H100。此外,他们还有更多 H20 的订单,Nvidia 在过去 9 个月内生产了超过 100 万台中国专用 GPU。这些 GPU 在 High-Flyer 和 DeepSeek 之间共享,并且在一定程度上分布在各个地区。"

deepseek vs GPT 推理秀

最后,放一段 deepseek vs GPT 的推理秀。向模型发问“你的思维链是什么?”,以一道简单代码题为例,他们的回答分别是:


不难看出风格上的差异。DS 在自言自语的小镇做题家(hmmm),ChatGPT 更像是教书先生(一本正经)。

鸡毛秀里的形容更形象:

小模型向大模型蒸馏,我们再向小模型蒸馏。问“你的思维链是什么?”是我最近频繁地和模型交互的方式,而不是直接接收模型给出的答案。我个人是有点迷上了看 Deepseek R1 的 thinking loop,那感觉像是学习好的同学沉浸式地给你讲他的解题思路一样。

写在最后

正所谓,上有政策下有对策。创新越是从夹缝里,从资源的束缚里,从不可能变成可能,才越显得耀眼和牛逼。这也是 Deepseek 能够火到每个人心里的重要原因(不管是激动的火焰还是着急上火)。从零到一确实是美国最擅长的东西,但当你有那么多资源的时候,更多的是守住阵地的危机感而不是挑战者的激情,which 后者虽不得已,但我们正旺盛。

如果大家的目标是整出 AGI 而不是比谁 H100,800 多,不止一条道路可以走。就像 Hinton 在最近的访谈中说 [6],芯片禁运,只会加快中国创 (xiǎng) 新 (fǎ) 的速度,再怎么围追堵截也是无法挡住流动的水不是?

Deepseek 不是一个最终解决方案,但一定是久违的信心。

冲,deepsnake!


参考资料

[1] Deepseek R1 论文 https://github.com/deepseek-ai/DeepSeek-R1/blob/main/DeepSeek_R1.pdf

[2] Model Compression https://www.cs.cornell.edu/~caruana/compression.kdd06.pdf

[3] Distilling the knowledge in a neural network https://arxiv.org/abs/1503.02531

[4] Andrew NG 的博客:https://www.deeplearning.ai/the-batch/issue-286/

[5] Semi-analysis 报告:GPU 和训练成本被低估了 

"DeepSeek Debates: Chinese Leadership On Cost, True Training Cost, Closed Model Margin Impacts" https://semianalysis.com/2025/01/31/deepseek-debates/

[6] Hinton 最近采访提到中美差距:https://www.youtube.com/watch?v=b_DUft-BdIE

【免责声明】市场有风险,投资需谨慎。本文不构成投资建议,用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。

在 App 打开
空投
rwa
稳定币
wct
hyperliquid
uniswap
initia
fo
以太坊
om
crv
香港