广告出价进入“自动驾驶”时代，快手提出生成式强化学习出价技术_汽车资讯

广告出价进入“自动驾驶”时代，快手提出生成式强化学习出价技术

创始人

2025-09-26 23:57:51

0次

近日，快手首次提出生成式强化学习出价技术，并将其应用于大规模广告系统中。该项技术显著提升了广告竞价的智能化水平，实现了出价策略从传统“依赖单步状态决策”到新一代“序列决策”的关键跨越，在为广告主带来更高投放回报的同时，也提升了平台整体收益，真正实现了双赢。2025年至今，该技术已成功推动快手广告收入提升3%，成效显著。

广告出价：实时竞价中的“智能大脑”

在实时竞价（RTB）广告系统中，出价模块作为连接广告主与流量的核心枢纽，需要在多重约束条件下实现广告投放效果的最优化。

这一过程面临三大挑战。首先是既要控制支出，又要追求效益。广告主不仅需要将单日花费严格控制在预算范围内，还应力求降低每次转化的成本，实现成本效益的双重优化。

其次是，未来环境的不确定性。系统难以预知即将到来的流量状况与竞争对手行为，因此必须依赖实时花费与成本等数据，动态调整出价策略以应对波动市场。

最后是决策之间的连锁影响。每一次出价不仅直接影响广告的展示与消耗，还会改变账户状态（如剩余预算），进而干扰后续出价决策，形成一个连续且复杂的序列决策问题。

三代技术革新，快手提出新一代生成式强化学习出价技术

快手出价技术已历经三代演进：从PID控制——基于当前状态与目标的偏差进行调节，响应直接但适应性有限，难以应对复杂多变的竞价环境；到第二代MPC预测模型——能够预测短期未来并优化动作，但预测范围有限，易陷局部最优；再到第三代强化学习——通过历史数据学习不同状态下的最优出价策略，最大化长期收益，兼顾效果与安全性。

近年来，尽管强化学习在自动出价中表现优异，但其决策仍依赖单步状态信息，对序列历史利用不足。而生成式模型擅长对序列数据进行建模和生成，却不擅长直接优化目标收益。

面对这一挑战，快手创新融合两类技术，提出生成式强化学习出价技术——在继承生成模型序列建模能力的基础上，引入强化学习的目标导向优化机制，实现出价策略在长序列决策中的新突破。

两大核心算法实现广告出价“多维思考”，助推智能决策升级

在将生成模型应用于强化出价策略的过程中，主要面临两大挑战：一是对高质量数据集的依赖较强，限制了泛化能力；二是生成模型难以直接优化序列整体收益，导致出价策略与广告主全局目标存在偏差。

针对这些挑战，快手提出了GAVE和CBD两大创新算法。GAVE算法融合了Score-based RTG机制与价值函数引导的动作探索策略，显著提升了离线训练中的探索能力，该成果助力团队荣获NeurIPS 2024自动出价竞赛双赛道冠军。

广告策略时代序列技术状态竞价决策快手自动广告主

上一篇：以电动化驱动降本增效，以数字化支撑绿色转型，金点商砼为传统行业注入新的发展动力

下一篇：以人为本：启境汽车夏测如何重塑智能出行体验

广告出价进入“自动驾驶”时代，快手提出生成式强化学习出价技术

相关内容

热门资讯