WWW 2026 | 快手联合复旦提出生成式回归框架，刷新短视频播放时长预测SOTA！ - 新鲜讯息

在短视频推荐系统中，观看时长预测是一个核心且具有挑战性的问题。作为典型的连续值预测任务，其分布呈现显著的长尾特征，并对异常值高度敏感，长期以来一直制约着推荐模型的优化效果。传统回归方法在该场景下往往面临预测偏差与鲁棒性不足等挑战。为此，快手技术团队深入分析了流媒体场景下的核心指标痛点，联合复旦大学研究团队共同提出一种全新的生成式回归（Generative Regression, GR）范式，该成果已被国际顶级学术会议WWW 2026收录。

该方法的核心创新在于，将连续数值的观看时长预测重新定义为序列生成任务，以结构化离散化实现近乎无损的数值重构，并通过课程学习与嵌入组合（Embedding Mixup）策略有效解决了训练推断不一致的问题。实验结果表明，该模型不仅在多个公开数据集上大幅刷新了SOTA记录，还在快手亿级日活的真实线上场景中取得了显著的收益提升。

论文标题：
Generative Regression Based Watch Time Prediction for Short-Video Recommendation
论文链接：
https://arxiv.org/pdf/2412.20211
代码链接：
https://github.com/snailma0229/GR

一、背景与痛点

近年来，随着快手和TikTok等短视频社交媒体的快速崛起，优化流媒体播放器的推荐系统变得至关重要。与传统视频点播平台（如Netflix）不同，短视频平台通常采用滑动模式，视频会自动播放而无需用户主动点击。在这种场景下，传统的点击率（CTR）指标逐渐失效，视频的播放时长（Watch Time）成为了衡量用户参与度和体验的最核心指标。

然而，精准预测播放时长面临着巨大的挑战：

长尾分布与回归本质：与点赞、关注等有限的离散行为不同，播放时长的跨度极广且呈现显著的长尾分布，本质上是一个极难拟合的回归问题。
传统序数回归（OR）的局限：目前业界常用的SOTA方法（如CREAD、TPM等）通常将连续时间划分为多个固定区间（buckets），转化为一系列二分类任务。这种做法不仅忽略了时间区间之间的条件依赖关系（各个区间的预测往往是独立的，缺乏误差纠正机制），而且极度依赖区间的划分方式。对于长尾数据，尾部区间过大的跨度值会不成比例地放大短视频的预测误差，导致模型常常高估播放时间。

二、生成式回归模型（GR）

受大语言模型（LLMs）序列生成能力的启发，我们跳出了传统分箱二分类的桎梏，提出了一种通用生成式回归模型（GR）。

我们将完整的播放时长预测任务，巧妙地分解为了一个自回归的序列生成任务：每一步只预测总时长的一部分（类似于LLM吐出一个Token），当前步的输出将作为下一步的输入，逐步逼近真实的总播放时长。

为了让这个生成式框架在回归任务中完美落地，我们精心设计了三大核心组件：

1. 动态分位数词表构建（Vocabulary Construction）：不同于拍脑袋定下的时间单位，我们提出了一种数据驱动的动态分位数调整算法来构建“时间词表”。该策略通过衰减率逐步逼近尾部数值，极大缓解了长尾分布带来的词元不平衡问题，使得每个Token的分布更加均匀。

2. 无损标签编码（Label Encoding）：在词表的基础上，我们基于正确性、最小序列长度和单调性三大原则，采用贪婪分解算法，将连续的真实播放时长无损地转化为一个离散的词元序列（Token Sequence）。

3. 带有嵌入混剪的课程学习（CLEM）：在自回归训练中，Teacher Forcing机制会导致训练和推理时的输入分布不一致（即暴露偏差 Exposure Bias）。为此，我们引入了非线性衰减的课程学习（Curriculum Learning），动态调整采样真实Token和预测Token的概率。此外，我们深挖了时间Token的语义连续性，提出了Embedding Mixup方法，在局部窗口内对预测Token的特征进行融合重组，从而重塑了梯度传播路径，以极低的成本加速了模型收敛。

三、实验结果：离线与线上的双重验证

为全面评估生成式回归（GR）模型的有效性与鲁棒性，我们构建了涵盖公开基准与真实工业场景的多维度实验环境，进行了详尽的离线与在线验证。

1. 离线指标全面超越：我们在两套公开基准（KuaiRec, CIKM16）以及一套拥有超4亿DAU的真实工业数据集上进行了测试。结果显示，GR在MAE和XAUC指标上均一致且显著地超越了现有的强基线模型（VR, TPM, CREAD, SWAT等）。

在KuaiRec上，GR相比次优方法实现了3.356%的MAE降低，以及1.824%的XAUC提升。
在工业数据集上，GR同样展现出了卓越的泛化能力，证明了其在真实业务中的鲁棒性。

2. 线上A/B测试收益：我们将GR模型部署到了快手App的真实业务场景中进行在线A/B测试，GR取得的收益如下：

App使用时长提升了0.087%，视频总消费时长提升了0.129%。在亿级体量的成熟推荐系统中，千分之一级别的提升代表着极为可观的业务价值和商业转化潜力。

四、结语

Generative Regression (GR) 范式通过引入自回归条件依赖机制，突破了传统方法将连续值预测强行拆解为独立离散分类任务的桎梏，为观看时长等连续数值的精准预测开辟了全新的技术路径。未来，随着生成式模型技术的持续演进，我们期待GR范式能够进一步拓展推荐系统乃至更广泛的工业界算法场景，为更多复杂的回归问题提供创新解决方案。

关于我们

消费策略算法部是负责快手短视频推荐的核心算法团队，致力于用强化学习、因果推断、增益模型、跨域学习、元学习、图模型、运筹优化、博弈机制、端上智能等前沿技术持续优化用户的内容消费体验，提升用户对平台粘性和大盘DAU，不断改进冷启动和大盘流量分配机制，促进社区生态的长期繁荣与多种营收指标共同提升。

团队负责场景覆盖快手单列、双列、关注、同城等核心页面。技术成果在KDD/SIGIR/WWW/NeurIPS/ICLR/WSDM/CIKM等顶会上发表，并获得CIKM Best Paper和SIGIR Best Paper Award Honorable Mention。

成员多来自国内外顶尖高校硕博毕业，很多有国内外头部大厂核心团队经历，不乏头顶快Star/阿里星/天才少年/ACM金牌等光环者，同时团队积累了业内领先的人才和充足的算力，期待加入一起探索AI时代的新推荐系统。

热招岗位

职位名称：

推荐算法工程师-【用户推荐与社交互动】
推荐算法工程师【内容生态算法】
推荐算法工程师-【创新孵化&评论生态】
推荐算法工程师-【极速版单列推荐】
推荐算法工程师-【主站关注页】
推荐算法工程师-【主APP】
推荐算法工程师-【投稿与UGC社区】
推荐算法工程师-【多业务混排】
推荐算法工程师-【留用实习】

岗位描述：

探索大模型与推荐算法结合的下一代推荐系统技术，充分利用大模型的领域知识和学习范式为推荐系统注入新的能量，包括但不限于文本/ID生成式推荐、模型Scaling Law、用户超长序列端到端建模等；
探索视频、文本和语音等多模态信号的高效处理方式以及与推荐系统对齐的能力，让推荐系统看懂、听懂和理解世界；
混合专家、蒸馏剪枝等兼顾模型性能和效果的技术探索；
紧跟行业及大模型技术发展，结合业界前沿技术和业务需求，打造大模型应用的最佳实践。