大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
随着大语言模型(LLM)参数规模突破千亿级(如 Kimi-K2 达 1000B 参数)、上下文长度扩展至 32K 甚至更长,激活值巨大的显存开销已经成为大语言模型训练过程中的核心瓶...
这是关于 reload 标签的相关文章列表
随着大语言模型(LLM)参数规模突破千亿级(如 Kimi-K2 达 1000B 参数)、上下文长度扩展至 32K 甚至更长,激活值巨大的显存开销已经成为大语言模型训练过程中的核心瓶...
