首页
第108章 意外的物理学经验
返回

第108章 意外的物理学经验

章节报错(免登陆)
下载APP,无广告、完整阅读

一秒记住【笔趣阁小说网】
biquge678.com,更新快,无弹窗!


    2025年1月,还有一件事对徐辰影响很大。
    这个月,发生了一件科技界的大事。
    各大国内主流新闻APP的头版头条都在推送一条消息:
    标题,充满了科技感与冲击力。
    【「中国AI的『GPT-4时刻』?DeepSeek-R1横空出世,性能全面超越,并宣布开源!」】
    「DeepSeek-R1?」徐辰的眉毛,微微一挑。
    (请记住看台湾小说就上台湾小说网,?????.???随时看网站,观看最快的章节更新)
    在过去的几个月里,以ChatGPT为代表的大语言模型(LLM),如同平地惊雷,在全球范围内,掀起了一场前所未有的科技革命。
    【大语言模型……AI……】
    徐辰的心中,泛起了一丝好奇。
    他虽然主攻的是纯粹数学,但对于这些代表着人类科技最前沿的「时髦」玩意儿,也并非一无所知。
    他打开电脑,搜索到了DeepSeek-R1的开源论文。
    他饶有兴致地,开始阅读起来。
    论文的前半部分,是关于模型训练所使用的数学理论。
    「……我们采用了改进的『注意力机制』(AttentionMechanism),其核心,是将输入序列中的每一个词向量,都映射到『查询(Query)』丶『键(Key)』丶『值(Value)』这三个向量空间中。通过计算Query与所有Key的点积相似度,并进行Softmax归一化,来得到每个Value的权重……」
    【嗯,有点意思。】徐辰的眼中,闪过一丝了然。
    【这个思路,本质上是线性代数中『投影』与『加权平均』思想的一种精妙应用。它通过点积来衡量向量间的『相关性』,再用Softmax函数将这种相关性转化为概率权重,从而让模型能够动态地聚焦于输入序列中最关键的部分。】
    「……在优化器(Optimizer)的选择上,我们采用了Adam算法,它结合了『动量法』(Momentum)和『RMSProp』的优点,能够自适应地,为不同参数,调整学习率……」
    【原来如此。】徐辰点了点头。
    【这可以看作是常微分方程中『梯度下降法』的一种高级变体。它引入了『动量』这个物理概念,模拟一个在损失函数曲面上滚动的小球,利用惯性冲过平坦区域和局部极小值点,从而加速收敛。而自适应学习率,则相当于为这个小球,在不同陡峭程度的路面上,配备了智能的刹车和油门系统。】
    论文中那些在AI工程师看来,极其高深复杂的数学原理,在徐辰这个LV.2级别的「数学家」眼中,却如同庖丁解牛,每一个结构,每一处关节,都清晰可见。
    他只花了不到半个小时,就将论文中所有的数学部分,全部吃透,甚至还能举一反三地,思考出几种可能的改进方向。
    【整个大语言模型,从数学上看,可以被视为一个极其高维的丶非线性的函数逼近器
章节报错(免登陆)
下载APP,无广告、完整阅读
验证码: 提交关闭