广告出价进入“自动驾驶”时代,快手提出生成式强化学习出价技术
创始人
2025-09-26 23:57:51
0

近日,快手首次提出生成式强化学习出价技术,并将其应用于大规模广告系统中。该项技术显著提升了广告竞价的智能化水平,实现了出价策略从传统“依赖单步状态决策”到新一代“序列决策”的关键跨越,在为广告主带来更高投放回报的同时,也提升了平台整体收益,真正实现了双赢。2025年至今,该技术已成功推动快手广告收入提升3%,成效显著。

广告出价:实时竞价中的“智能大脑”

在实时竞价(RTB)广告系统中,出价模块作为连接广告主与流量的核心枢纽,需要在多重约束条件下实现广告投放效果的最优化。

这一过程面临三大挑战。首先是既要控制支出,又要追求效益。广告主不仅需要将单日花费严格控制在预算范围内,还应力求降低每次转化的成本,实现成本效益的双重优化。

其次是,未来环境的不确定性。系统难以预知即将到来的流量状况与竞争对手行为,因此必须依赖实时花费与成本等数据,动态调整出价策略以应对波动市场。

最后是决策之间的连锁影响。每一次出价不仅直接影响广告的展示与消耗,还会改变账户状态(如剩余预算),进而干扰后续出价决策,形成一个连续且复杂的序列决策问题。

三代技术革新,快手提出新一代生成式强化学习出价技术

快手出价技术已历经三代演进:从PID控制——基于当前状态与目标的偏差进行调节,响应直接但适应性有限,难以应对复杂多变的竞价环境;到第二代MPC预测模型——能够预测短期未来并优化动作,但预测范围有限,易陷局部最优;再到第三代强化学习——通过历史数据学习不同状态下的最优出价策略,最大化长期收益,兼顾效果与安全性。

近年来,尽管强化学习在自动出价中表现优异,但其决策仍依赖单步状态信息,对序列历史利用不足。而生成式模型擅长对序列数据进行建模和生成,却不擅长直接优化目标收益。

面对这一挑战,快手创新融合两类技术,提出生成式强化学习出价技术——在继承生成模型序列建模能力的基础上,引入强化学习的目标导向优化机制,实现出价策略在长序列决策中的新突破。

两大核心算法实现广告出价“多维思考”,助推智能决策升级

在将生成模型应用于强化出价策略的过程中,主要面临两大挑战:一是对高质量数据集的依赖较强,限制了泛化能力;二是生成模型难以直接优化序列整体收益,导致出价策略与广告主全局目标存在偏差。

针对这些挑战,快手提出了GAVE和CBD两大创新算法。GAVE算法融合了Score-based RTG机制与价值函数引导的动作探索策略,显著提升了离线训练中的探索能力,该成果助力团队荣获NeurIPS 2024自动出价竞赛双赛道冠军。

相关内容

热门资讯

毫末智行停摆,智能驾驶优胜劣汰... 日前曝出消息称,毫末智行突然通知员工,自11月24日(本周一)起“无需到岗上班”。 据知情人士称,毫...
长安发布"新安全&q... 广州车展,长安汽车以“新长安 新安全 天枢智能”为主题,正式发布“新安全”价值体系,宣布将汽车安全范...
中国一重:炉火映初心 冲刺四季... 火红的钢锭照亮车间穹顶,水压机声震彻十里厂房。进入四季度收官冲刺的关键节点,中国一重集团有限公司(以...
共建新能源汽车韧性供应链 河南省郑州航空港区比亚迪总装工厂新能源汽车“宋Pro”生产线。 新华社记者 李嘉南摄 中国汽车工业协...
企业的边界无限,责任的初心不改... 在物通集团的文化墙上,有这样一句话“用科技创造未来 让物通走向世界”,而这不仅是企业的愿景,更是高一...
理想汽车入局“百镜大战”,李想... 11月25日晚,理想汽车董事长兼CEO李想在社交平台发布视频称,将发布智能眼镜,“理想AI眼镜是理想...
微硕WSK96N08 MOSF... 随着汽车智能化与个性化配置深度普及,电动座椅系统已从豪华车型标配演变为10万元级家用车主流选项。作为...
2025恒力弹簧厂家哪家好?技... “新能源汽车电机刚装机调试,就因恒力弹簧弹力衰减导致停机”“医疗设备用弹簧精度不达标,整批次产品被迫...
汽车新品发布会邀请新能源专家赋... 【邀请诺贝尔奖、图灵奖得主、两院院士、各行业专家,请联系五洲名家智库】 欧洲新能源权威弗罗洛夫·迪米...
智驾芯片行业:技术普惠因风起,... 今天分享的是:智驾芯片行业:技术普惠因风起,国产替代恰逢时 报告共计:129页 智驾芯片行业发展总结...