哪里治白癜风最好 http://baidianfeng.39.net/a_zczz/160124/4763965.html
选自arXiv
作者:XinshiChen、ShuangLi、HuiLi、ShaohuaJiang、YuanQi、LeSong
机器之心编译
参与:李诗萌、shooting
将强化学习用于推荐系统,能更好地考虑用户的长期效益,从而保持用户在平台中的长期满意度、活跃度。但是,强化学习需要大量训练样本,例如,AlphaGoZero[1]进行了百万局模拟围棋训练,Atarigame的强化学习在电脑中高速运行了超过50个小时[2]。而在推荐系统的场景中,在线用户是训练环境,系统需要与用户进行大量的交互,利用用户的在线反馈来训练推荐策略。该过程将消耗大量交互成本、影响用户体验。在蚂蚁金服被ICML接收的这篇论文中,作者们提出用生成对抗用户模型作为强化学习的模拟环境,先在此模拟环境中进行线下训练,再根据线上用户反馈进行即时策略更新,以此大大减少线上训练样本需求。此外,作者提出以集合(set)为单位而非单个物品(item)为单位进行推荐,并利用Cascading-DQN的神经网络结构解决组合推荐策略搜索空间过大的问题。在推荐系统中应用强化学习(RL)有很大的研究价值,但也面临诸多挑战。在这样的配置中,在线用户是环境(environment),但是并没有明确定义奖励函数(reward)和环境动态(transition),这些都对RL的应用造成了挑战。
本文提出利用生成对抗网络同时学习用户行为模型(transition)以及奖励函数(reward)。将该用户模型作为强化学习的模拟环境,研究者开发了全新的Cascading-DQN算法,从而得到了可以高效处理大量候选物品的组合推荐策略。
本文用真实数据进行了实验,发现和其它相似的模型相比,这一生成对抗用户模型可以更好地解释用户行为,而基于该模型的RL策略可以给用户带来更好的长期收益,并给系统提供更高的点击率。
论文:GenerativeAdversarialUserModelforReinforcementLearningBasedRe