欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~
科学空间|Scientific Spaces
登录 打赏公式天象链接时光博览归档
渴望成为一个小飞侠
欢迎订阅
个性邮箱
天象信息
观测ISS
LaTeX
关于博主
欢迎访问“科学空间”,这里将与您共同探讨自然科学,回味人生百态;也期待大家的分享~
千奇百怪
Everything
天文探索
Astronomy
数学研究
Mathematics
物理化学
Phy-chem
信息时代
Big-Data
生物自然
Biology
图片摄影
Photograph
问题百科
Questions
生活/情感
Life-Feeling
资源共享
Resources
宇宙驿站感谢国家天文台LAMOST项目之“宇宙驿站”提供网络空间和数据库资源! 感谢国家天文台崔辰州博士等人的多方努力和技术支持!
版权科学空间致力于知识分享,所以欢迎您转载本站文章,但转载本站内容必须遵循 署名-非商业用途-保持一致 的创作共用协议。
参与科学空间
为了保证你的利益,推荐你注册为本站会员。同时欢迎通过邮件或留言进行交流、建议或反馈科学空间的问题。
会员注册会员登录查看全站文章归档页
5
Oct
为什么线性注意力要加Short Conv?
By 苏剑林 | 2025-10-05 | 5312位读者 | Kimi 引用
如果读者有关注模型架构方面的进展,那么就会发现,比较新的线性Attention(参考《线性注意力简史:从模仿、创新到反哺》)模型都给Q,K,V
加上了Short Conv,比如下图所示的DeltaNet:
DeltaNet中的Short Conv
DeltaNet中的Short Conv
为什么要加这个Short Conv呢?直观理解可能是增加模型深度、增强模型的Token-Mixing能力等,说白了就是补偿线性化导致的表达能力下降。这个说法当然是大差不差,但它属于“万能模版”式的回答,我们更想对它的生效机制有更准确的认知。
接下来,笔者将给出自己的一个理解(更准确说应该是猜测)。
点击阅读全文…
分类:信息时代 标签:线性, RNN, 生成模型, attention阅读全文抢沙发
1
Oct
AdamW的Weight RMS的渐近估计
By 苏剑林 | 2025-10-01 | 6080位读者 | Kimi 引用
在《为什么Adam的Update RMS是0.2?》中,我们用平均场近似估计了Adam的Update RMS。不久后,读者 @EIFY 指出相同的结果已经出现在论文《Rotational Equilibrium: How Weight Decay Balances Learning Across Neural Networks》中。阅读后,笔者发现其中不仅包含了Update RMS的估计,还包含了Weight RMS的估计。
也就是说,AdamW训出来的模型,其权重的RMS是可以事先估计出来一个渐近结果的。大家会不会觉得这个结论有点意外?反正笔者第一次看到它是颇为意外的,直觉上权重模长是模型根据训练集自己学出来的,结果它告诉我这已经隐藏在优化器的超参中,可谓很反直觉了。
这篇文章我们还是用平均场近似方法,来复现对Weight RMS的渐近估计。
点击阅读全文…
分类:数学研究 标签:估计, 梯度, 优化器, 平均场阅读全文抢沙发
22
Sep
重新思考学习率与Batch Size(四):EMA
By 苏剑林 | 2025-09-22 | 14822位读者 | Kimi 引用
我们在《重新思考学习率与Batch Size(二):平均场》中提到,关注SignSGD的原因之一是我们通常将它作为Adam的理论近似,这是Adam做理论分析时常用的简化策略。除了分析学习率的场景外,在《配置不同的学习率,LoRA还能再涨一点?》、《初探MuP:超参数的跨模型尺度迁移规律》等地方我们也用了这个简化。
然而,SignSGD真是Adam的良好近似吗?一个明显差异是SignSGD的Update RMS总是1,而Adam并非如此。笔者发现,导致这一差异的核心原因是动量,它普遍存在于Adam、Lion、Muon等优化器中。所以,本文我们来考察动量——更广义地说是EMA——的影响。
问题分析
从Adam的视角看,SignSGD对应β1=β2=0
这个特例,或者对应于Adam的第一步更新量(不管β1,β2
如何)。因此,我们认为它跟Adam肯定有一些共性,能够捕捉到一些通用的规律。
点击阅读全文…
分类:数学研究 标签:学习率, 优化器, 尺度定律, 平均场阅读全文抢沙发
15
Sep
重新思考学习率与Batch Size(三):Muon
By 苏剑林 | 2025-09-15 | 19812位读者 | Kimi 引用
前两篇文章《重新思考学习率与Batch Size(一):现状》和《重新思考学习率与Batch Size(二):平均场》中,我们主要是提出了平均场方法,用以简化学习率与Batch Size的相关计算。当时我们分析的优化器是SGD、SignSGD和SoftSignSGD,并且主要目的是简化,本质上没有新的结论。
然而,在如今的优化器盛宴中,怎能少得了Muon的一席之地呢?所以,这篇文章我们就来尝试计算Muon的相关结论,看看它的学习率与Batch Size的关系是否会呈现出新的规律。
基本记号
众所周知,Muon的主要特点就是非Element-wise的更新规则,所以之前在《当Batch Size增大时,学习率该如何随之变化?》和《Adam的epsilon如何影响学习率的Scaling Law?》的Element-wise的计算方法将完全不可用。但幸运的是,上篇文章介绍的平均场依然好使,只需要稍微调整一下细节。
点击阅读全文…
分类:数学研究 标签:学习率, 优化器, 尺度定律, muon, 平均场阅读全文抢沙发
10
Sep
重新思考学习率与Batch Size(二):平均场
By 苏剑林 | 2025-09-10 | 15658位读者 | Kimi 引用
上文《重新思考学习率与Batch Size(一):现状》末尾我们说到,对于SignSGD、SoftSignSGD等φ~B
非线性依赖于g~B
的情形,计算过程的心智负担相当沉重,并且面临难以推广的困境。为此,笔者投入了一些精力去尝试简化其中的推导,万幸有些许收获,其中的关键思路便是本文的主题——平均场。
平均场是物理中常见的近似计算方法,它没有固定的形式,但大体思想就是将求平均移到函数之内。事实上,在《为什么Adam的Update RMS是0.2?》中我们就已经窥见过平均场的魅力,而在这篇文章中,我们再来见识它在计算SignSGD/SoftSignSGD的学习率规律上的奇效。
方法大意
沿着上文的记号,对于SignSGD我们有φ~B=sign(g~B)
,我们需要先计算E[φ~B]
和E[φ~Bφ~⊤B]
,继而可以算出
η∗≈E[φ~B]⊤gtr(E[φ~Bφ~⊤B]H)(1)
点击阅读全文…
分类:数学研究 标签:学习率, 优化器, 尺度定律, 平均场阅读全文抢沙发
2
Sep
为什么Adam的Update RMS是0.2?
By 苏剑林 | 2025-09-02 | 27803位读者 | Kimi 引用
众所周知,我们很早就开始尝试将Muon用于大规模LLM的训练。特别地,在《Muon续集:为什么我们选择尝试Muon?》中,我们提出了“Match Adam Update RMS”的技巧,以便快速从Adam迁移到Muon上,这个技巧同样用到了Kimi K2的训练中。该技巧是指将Muon的Update RMS统一成0.2,这使得我们复用Adam的学习率和权重衰减率。
这一技巧的背后,是我们观察到Adam的Update RMS约等于0.2,并且这一现象是稳定且可复现的。这便引发了一个有趣的问题:为什么Adam的Update RMS是0.2?我们可以从理论上解释它吗?
问题引入
首先描述一下现象:从实验中我们观察到,大致上在Warmup结束、模型进入正式训练后,Adam的Update RMS几乎都保持在0.2~0.3之间,并且不同尺寸的模型也呈现出相似的规律。这些模型的共同点是都用Adam训练,参数是β1=0.9,β2=0.95
。由于共性很明显,所以这大概率不是巧合,因此笔者尝试分析背后的原理。
点击阅读全文…
分类:数学研究 标签:分析, 梯度, 优化器, 平均场阅读全文6 评论
1
Sep
重新思考学习率与Batch Size(一):现状
By 苏剑林 | 2025-09-01 | 21599位读者 | Kimi 引用
在之前的文章《当Batch Size增大时,学习率该如何随之变化?》和《Adam的epsilon如何影响学习率的Scaling Law?》中,我们从理论上讨论了学习率随Batch Size的变化规律,其中比较经典的部分是由OpenAI提出的展开到二阶的分析。然而,当我们要处理非SGD优化器时,这套分析方法的计算过程往往会相当复杂,有种无从下手的感觉。
接下来的几篇文章,笔者将重新整理和思考上述文章中的相关细节,尝试简化其中的一些推导步骤,给出一条更通用、更轻盈的推导路径,并且探讨推广到Muon优化器的可能性。
方法大意
首先回顾一下之前的分析方法。在《当Batch Size增大时,学习率该如何随之变化?》中,我们介绍了多种分析学习率与Batch Size规律的思路,其中OpenAI在《An Empirical Model of Large-Batch Training》提出的二阶近似分析占了主要篇幅,本文也是沿用同样的思路。
点击阅读全文…
分类:数学研究 标签:梯度, 学习率, 优化器, 尺度定律阅读全文抢沙发
25
Aug
Cool Papers更新:简单适配Zotero Connector
By 苏剑林 | 2025-08-25 | 21297位读者 | Kimi 引用
很早之前就有读者提出希望可以给Cool Papers增加导入Zotero的功能,但由于笔者没用Zotero,加上又比较懒,所以一直没提上日程。这个周末刚好有点时间,研究了一下,做了个简单的适配。
单篇导入
首先,我们需要安装Zotero(这是废话),然后需要给所用浏览器安装Zotero Connector插件。安装完成后,我们访问Cool Papers的单篇论文页面,如 https://papers.cool/arxiv/2104.09864 或 https://papers.cool/venue/2024.naacl-long.431@ACL ,然后点击Zotero Connector的图标,就会自动把论文导入了,包括PDF文件。
单篇论文导入到Zotero
单篇论文导入到Zotero
点击阅读全文…
分类:信息时代 标签:网站, 论文, 酷论文阅读全文4 评论
1234…161»
关于站长
科学空间logo
苏剑林|BoJone,科学空间博主,【数学、天文、理论物理、写作、阅读、计算机、中国象棋、厨房】爱好者(但不专业)……目前32岁,还在单调递增。希望能一直在此分享科学之美~
你也许会关心:
科学空间|Scientific Spaces 介绍
科学空间QQ交流群:67729435
科学空间微信交流群:spaces_ac_cn
常见问题集:《科学空间FAQ》
智能搜索
请输入关键词
支持整句搜索!网站自动使用结巴分词进行分词,并结合ngrams排序算法给出合理的搜索结果。
热门标签
生成模型 attention 优化 语言模型 模型 网站 概率 梯度 转载 矩阵 优化器 微分方程 分析 天象 深度学习 积分 python 力学 无监督 扩散 几何 节日 生活 文本生成 数论
最新文章
为什么线性注意力要加Short Conv?
AdamW的Weight RMS的渐近估计
重新思考学习率与Batch Size(四):EMA
重新思考学习率与Batch Size(三):…
重新思考学习率与Batch Size(二):平均场
为什么Adam的Update RMS是0.2?
重新思考学习率与Batch Size(一):现状
Cool Papers更新:简单适配Zote…
流形上的最速下降:4. Muon + 谱球面
ReLU/GeLU/Swish的一个恒等式
最近评论
yuming: 苏神,你好! 我觉得这篇博文的思路似乎和DDIM论文反过来了,恳请解惑。(注:评论中用的符号与…
mxz: 哇谢谢回复!听起来好像可以类比为是这个向量的地址,哈哈哈苏神竟然还这么耐心地看评论~
pb: 谢谢,我也自己画了画图,的确如您所说,多个频率叠加可以得到比较有趣的衰减效应。
YNuclear: 感谢苏神的回复。我的理解是pθ(x)
难以直接求解,因此VAE引入了后验分布…
苏剑林: 好的,那按照我的理解,我们的观点应该是已经对齐了。
苏剑林: 对,事后来看,这个上界的衰减性意义不大。不过这个上界是有机会达到的(虽然概率很小),所以算是给…
苏剑林: zq
是一个向量,但如果它是事先给定的向量表的某一个,那么我们就可以用向量表中的编号代替它…
HanbinZheng: 感谢回复!我想表达的意思只是“根据原论文的推导,这个 sg[⋅]
是…
pb: 感谢回复。个人认为给两个完全没有限制的向量分析上界的意义不大,因为对于任意的 m,n
都存…
mxz: “这样一来,因为zq
是编码表E中的向量之一,所以它实际上就等价于1,2,…,K这K个整数…
友情链接
Cool Papers数学研发SeatopXiaoxia积分表-网络版丝路博傲数学之家有趣天文奇观TwistedWgodweiyangAI柠檬王登科-DK博客ESON枫之羽Mathor’s blogcoding-zuo博科园孔皮皮的博客运鹏的博客jiming.siteOmegaXYZEAI猩球文举的博客用代码打点酱油Zhang’s blog申请链接
署名-非商业用途-保持一致本站采用创作共用版权协议,要求署名、非商业用途和保持一致。转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议。
© 2009-2025 Scientific Spaces. All rights reserved. Theme by laogui. Powered by Typecho. 备案号: 粤ICP备09093259号-1/2。