首页
第301章 真理的启迪者 三
返回

第301章 真理的启迪者 三

章节报错(免登陆)
下载APP,无广告、完整阅读

一秒记住【笔趣阁小说网】
biquge678.com,更新快,无弹窗!


    稍微适应了一下升级后的大脑,徐辰估摸着DeepSeek的论文应该是发出来了。
    (请记住台湾小説网→??????????.??????网站,观看最快的章节更新)
    他打开电脑,熟练地登录arXiv,输入了关键词。
    果然,那篇论文赫然在列。
    徐辰在公寓里下载了这篇论文,仔细研读了一遍。
    论文的核心原理极其惊艳,直击当前大语言模型(LLM)的软肋:现有的Transformer架构虽然通过MoE(混合专家)实现了「条件计算」,但缺乏原生的知识查找机制。
    当模型需要回忆一个静态事实的时候,比如「巴黎是法国的首都」,它只能通过消耗宝贵的注意力机制和前馈网络层去「重新计算」和「模拟提取」。这就像是让一个顶级数学家去死记硬背电话号码,极大地浪费了推理算力。
    而DeepSeek给出的解法,正是「条件记忆」。
    他们引入了一个名为「Engram(记忆印迹)」的模块,将经典的N-gram嵌入现代化,实现了O(1)时间复杂度的常数级知识查找。简单来说,模型不再需要死记硬背,而是学会了「查字典」。
    论文中还提出了一条「U型缩放定律」,证明了将大约20%到25%的稀疏参数分配给Engram模块时,模型性能达到最优。更恐怖的是,由于Engram的查找是确定性的,它完全可以绕开昂贵的GPU显存(HBM)限制,直接从廉价的主机内存(DRAM)中进行运行时预取,几乎没有额外的性能开销。
    「干得漂亮。」
    徐辰看着论文里的架构图,暗自点头。
    以他升级后的信息学LV2的眼光来看,梁文锋的这个成果,和系统当初给出的那个完美的D-LTMN方案相比,其实做了一些工程上的妥协。
    系统方案更偏向于底层硬体架构的微调,而DeepSeek则是在现有的GPU集群和Transformer框架下,做到了软体层面的极致压榨。
    「这算是……系统方案的『青春版』?」
    徐辰摸了摸下巴。
    但这已经足够惊艳了。
    不出意外,这篇论文将在接下来的几个月里,成为整个AI界讨论的焦点。
    ……
    徐辰猜得没错。
    此时的曼哈顿下城,摩根史坦利大楼。
    高级分析师约翰·史密斯正对着电脑屏幕发呆,手里那杯昂贵的冷萃咖啡已经在那儿摆了半个多小时,冰块化了一半,也没动一口。
    屏幕上是一份还没写完的研报草稿——《英伟达:算力帝国的黄昏还是黎明?》。
    约翰感觉自己的头发都要掉光了。
    现在的华尔街,简直就是个精神分裂的疯人院。
    一方面,整个美股全靠那几只科技巨头撑着,尤其是英伟达,简直就是全村的希望。只要AI的故事还在讲,只要大模型还需要烧钱买卡,纳斯达克就能接着创新高,大家的年终奖就有着落。
    如果英
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭