该论文提出了“流形约束超连接”(Manifold-Constrained Hyper-Connections,简称 mHC),作为一种对现有超连接(Hyper-Connections,HC)方法的改进与泛化框架。HC 通过扩展残差流的宽度并多样化连接模式,提升了模型性能,但也因其无约束性质破坏了残差连接固有的恒等映射特性,导致训练不稳定、信号爆炸或消失,并引入显著的内存访问开销,限制了其在大规模训练中的可扩展性。针对这些问题,mHC 的核心思想是将 HC 中的残差连接空间投影到一个特定流形上,以恢复恒等映射的稳定性,同时通过基础设施优化保证计算效率。具体而言,mHC 利用 Sinkhorn-Knopp 算法将残差映射矩阵投影到 Birkhoff 多面体上,使其成为双随机矩阵,从而确保行和列之和均为 1,进而保持特征均值不变、抑制信号幅度波动,并在多层组合中仍保持该性质。
在方法实现上,mHC 除了对残差映射施加流形约束外,还对输入和输出映射施加非负约束,以防止信号抵消。为进一步提升系统效率,论文设计了多项基础设施优化措施:通过内核融合将多个计算步骤合并,减少内存带宽压力;采用选择性重计算策略降低激活内存占用;在 DualPipe 调度中重叠通信与计算,减轻流水线并行中的通信开销。实验部分基于语言模型预训练展开,涵盖 3B、9B 和 27B 等不同规模的模型。结果显示,mHC 在保持 HC 性能优势的同时,显著提升了训练稳定性,表现为损失曲线平滑、梯度范数受控,且在多类下游评测任务(如 BBH、DROP、MMLU 等)上一致优于基线模型和原始 HC。扩展性实验进一步表明,mHC 在不同计算规模和训练步数下均能维持稳定的性能提升,证实其适用于大规模模型训练。文末指出,mHC 作为一个灵活框架,未来可探索更多流形约束形式,以平衡模型表达力与训练稳定性,并为宏观网络拓扑设计提供新的研究方向。
DeepSeek论文 mHC:流形约束超连接(中文).pdf
DeepSeek论文 mHC:流形约束超连接(英文).pdf
人工智能网络安全框架规范(中文).pdf
人工智能网络安全框架规范(英文).pdf
-
推荐站内搜索:最好用的开发软件、免费开源系统、渗透测试工具云盘下载、最新渗透测试资料、最新黑客工具下载……




还没有评论,来说两句吧...