佛山市南海区悠钰商贸有限公司

一文看懂什么是强化学习?(基本成见 应用场景 主流算法 案例)
栏目分类
佛山市南海区悠钰商贸有限公司
公司简介
联系我们
产品中心
新闻动态
你的位置:佛山市南海区悠钰商贸有限公司 > 新闻动态 > 一文看懂什么是强化学习?(基本成见 应用场景 主流算法 案例)
一文看懂什么是强化学习?(基本成见 应用场景 主流算法 案例)
发布日期:2024-09-30 20:23    点击次数:105

一文看懂什么是强化学习?(基本成见 应用场景 主流算法 案例)

导读本文将深切辩论强化学习的干系内容。

主要内容包括:

1. 强化学习算法

2. 强化学习经典算法—DQN 算法

3. 强化学习推选算法晋升短视频留存

4. 强化学习改日挑战

共享嘉宾|蔡庆芃博士 快手高等算法人人

黄世宇博士 前第四范式强化学习科学家

裁剪整理|王振甲

内容校对|李瑶

出品社区|DataFun

01

强化学习算法

1. 强化学习的方针:通用东谈主工智能

图片

强化学习的方针是打造通用东谈主工智能。这意味着通过智能体与环境的执续交互,期骗动作、奖励和不雅测完了来缓缓更新和优化智能体的熟悉经由。其中枢念念想是通过最大化环境奖励来完结通用东谈主工智能的方针。这仍是由中,智能体连续地从与环境的交互中学习并调节其步履政策,以祈望达到更高的智能水平。

2. 基础数学模子:马尔可夫方案经由(MDP)

图片

从数学角度看,强化学习被建模为一个马尔可夫方案经由。在这个经由中,智能体(agent)与环境在每个设施(step)进行交互。智能体扩展一个动作(action),环境则复返刻下的立即奖励(reward)和下一个气象(state)。这个经由执续进行,造成一个气象-动作-奖励的序列。

在强化学习中,气象是气象汇注会的一个元素,动作是动作汇注会的一个元素。气象升沉假定妥贴马尔可夫性,即下一个气象的概率仅依赖于刻下气象和刻下动作。奖励则由刻下气象、刻下动作以及下一个气象调治决定。

此外,还有一个攻击的成见是 γ 值,它用于均衡即时奖励与改日潜在奖励的攻击性。通过调节 γ 值,不错甩手智能体在方案时是更侧重于即时奖励照旧改日的永恒奖励。

这种建面目式使得强化学习粗疏在不细目环境中通过试错学习最优政策,缓缓晋升性能并贴近最优解。

图片

强化学习当作机器学习的一个子类,与监督学习和无监督学习并排。监督学习侧重于分类或拟合转头,而无监督学习则处理无标签的样本。强化学习独具特色,既包含有监督的部分,又慎重于优化永恒价值。其数据样本的得回罢黜在线学习的范式,从而呈现出不落俗套的特色。强化学习限制与经济学、热诚学、神经科学等多个限制紧密连系,甚而在形而上学层面上存在一定的交叉。此外,强化学习与甩手论、奖励系统以及运筹学等限制也存在一定的肖似。

图片

强化算法的优化方针不错聚焦于永恒奖励或刻下设施的奖励,这触及到马尔可夫方案经由和多智能体问题。在处理赌博机问题时,不错弃取动作-价值格式或基于梯度的赌博机格式。

马尔可夫方案经由不错凭据是否使用环境模子分为基于模子和无模子两类。基于模子的算法不错通过学习环境的领略建模,期骗气象升沉函数和奖励函数来作念出最优方案,如使用 MuZero 和蒙特卡洛搜索等算法。无模子算法不错分为基于价值和基于政策两类强化学习算法。基于价值的强化学习算法仅学习一个价值函数,即料到刻下气象下遴选动作后的 Q 值,代表性的算法有 DQN。DQN 进一步演化出了 C51 等算法,适用于打破空间,并扩展到连气儿空间的 DDPG 算法。DDPG 算法弃取近似最大化,并繁衍出了科罚连气儿空间方案问题的 TD3、SAC 等算法。

在基于政策的强化学习算法中,不错分为无梯度和有梯度两类。无梯度算法弃取进化政策等演化算计类似的算法。有梯度算程序包括 TRPO 算法、PPO 算法等,其中PPO 算法在 MOBA 游戏 AI 和谎话语模子的 RLHF 熟悉中得到了平日应用。

3. 强化学习的应用

图片

强化学习的线上应用涵盖了多个限制。在游戏 AI 方面,强化学习被平日应用于围棋和星际争霸等游戏中。此外,在工艺甩手、金融量化、机器东谈主甩手、运筹优化和交通灯调遣等方面,强化学习也阐扬着攻击作用。同期,强化学习还在大模子对皆等任务中展现出其私有的价值。这些应用展示了强化学习在科罚骨子问题中的平日适用性和攻击性。

02

强化学习经典算法—DQN 算法

在强化学习限制,DQN 算法是一种广受接待的经典格式,它基于价值函数进行学习。

1. 强化学习:基于样本的 Q 值迭代

图片

与 Q-learning 类似,DQN 起劲于料到在给定气象下扩展某个动作的永恒陈述。为完结这一方针,DQN 期骗贝尔曼方程来构建一个方针值,该方针值由刻下气象的即时奖励和从下一个气象到序列收尾的最大可能价值组成。在此经由中,DQN 弃取 max 算子来弃取下一个气象中具有最大 Q 值的动作。一朝细目了方针值,DQN 会弃取软更新的样式来缓缓骤整其 Q 值料到。其中,学习率 α 演出着至关攻击的变装,它甩手着更新的步长。值得一提的是,DQN 算法在表面上具有一定的不停性保证。具体来说,当所有这个词的气象-动作对都被无限次地造访,况兼学习率知足一定条款时,DQN 不错缓缓不停到最优的价值函数。

图片

为了将评估格式扩展到连气儿的气象空间,需要衔尾深度神经集中来完结。具体而言,最初通过卷积神经集中对气象进行表征,随后期骗全汇注层输出每个动作的信用值。最终,咱们弃取具有最高置信度的动作进行扩展。这种格式使咱们粗疏在连气儿气象空间中灵验地进行方案和评估。

2. Deep Q-Networks – 方针集中

图片

尽管神经集中在函数近似方面发扬出色,但其应用仍存在一些问题。至极是,当使用神经集中来表征动作价值时,跟着价值集中参数的变化,模子预估的方针值也会动态地变化。这种景色组成了一个“moving target”问题,加多了算法的复杂性。为了缓解这个问题,不错引入一个 target network,这是一个孤独的、学习速率较慢的集中。当作原始神经集中的慢拷贝,target network 的学习速率更慢,从而留意方针变更过快。这种格式不错一定进度上提高算法的领略性。

03

强化学习推选算法晋升短视频留存

在短视频推选系统中,强化学习的应用显得尤为攻击。这是因为短视频推选的中枢方针是晋升用户满足度,而用户满足度的要道目的则是留存率。

1. 短视频推选中的用户留存

图片

留存高洁接反应了用户对推选内开心平台的体验,因此,关于如抖音、快手等平台来说,留存率成为了其中枢的评估范例。留存率当作用户与平台屡次交互的永恒反馈,体现了用户每次绽放 APP、不雅看多个视频后的步履方案。用户可能会在一段期间后再行复返 APP,这种蔓延反馈与围棋比赛中的阿尔法 go 类似,需要在多步之后进行评估。

传统的推选算法在处理这种蔓延反馈时靠近挑战,因为它们难以获胜优化永恒反馈。比较之下,强化学习当作一种粗疏获胜最大化永恒奖励的格式,相等得当科罚这类问题。在此场景下,咱们将问题建模为一个无限序列的马尔可夫方案经由,其中每次用户绽放 APP 都被视为一个新的驱动。推选系统在每个设施中复返六个视频当作动作,用户则给出即时反馈。经过屡次交互后,用户可能离开 APP 并鄙人一个会话中再行绽放,这组成了会话之间的回拜时本领隔。

强化学习的方针在于最小化多个会话间的累计回拜时本领隔,这在统计上等同于提高用户对平台的造访量。值得慎重的是,与之前强化学习在推选系统中的应用不同,这次格式初度针对回拜时本领隔进行优化,组成了一个翻新点。这种格式不仅有助于晋升用户满足度和留存率,还为强化学习在推选系统中的应用征战了新的念念路。

2. 基于无限域央求的马尔可夫方案经由

图片

为了更细致地科罚这一问题,咱们对模子进行了更深切地构建。在咱们的模子中,气象涵盖了用户的属性、历史记载以及候选视频的特征。而动作则指的是和会多个即时排序函数的经由,即生成一个排序打分的向量。值得慎重的是,咱们所处理的骨子空间是一个连气儿空间,最终方针是最小化多个会话之间的回拜时本领隔。通过这么的建模和优化,咱们粗疏更精确地剖释用户步履,并提供更妥贴其偏好的视频推选,从而晋升用户体验和满足度。

3. 用户留存算法的强化学习

图片

接下来将深切辩论这一格式的熟悉经由。咱们所弃取的是一个 active critic 学习框架,其中枢在于优化回拜期间方针偏激与即时信号 critic 值之和。在 critic 的学习经由中,举例关于留存率(retention)这一信号,咱们弃取了一种基于 TD-learning 的格式,其机制类似于 TD3 格式。

但是,当触及到即时响当令,情况变得更为复杂。为了极度只是学习立即互动、转发时长等信号,咱们引入了一个 RND 集中。这一集中源自立化学习中的探索格式,用于算计每个样本的探索价值,并将其当作内在奖励来增强样本。

在骨子应用中,行径者(actor)会凭据每个央求的输入气象输出一个 K 维的动作向量。这一向量与监督学习模子的打分进行内积运算,最终得到一个名次分数(ranking score)。基于这一瞥名分数,咱们会选出前 6 名的视频呈现给用户。

通过这一综及格式,粗疏更精确地知足用户需求,晋升用户体验,并在推选系统中完结更高效和个性化的内容推选。

4. 离线和在线实践

图片

咱们对所建议的格式进行了离线和在线的考据。在离线考据中,基于着名的短视频推选平台快手的数据,咱们构建了一个公开数据集和模拟器。通过对比黑盒优化的CEM 格式和 TD3 格式,咱们发现建议的 RLUR 格式在复返期间和用户留存率上均发扬出显耀的晋升。此外,咱们还进行了在线考据,完了标明,相较于基线 CEM 格式,RLUR 格式显耀提高了 APP 的打卡频次和用户留存率,考据了其在骨子推选系统中的灵验性。这些实践完了充分证据了 RLUR 格式在骨子应用中的后劲和价值。

04

强化学习改日挑战

图片

在辩论强化学习格式的改日挑战时,咱们需温文几个中枢问题。最初是样本后果问题,强化学习模子相较于监督学习模子,同样需要更大的样本量和更长的熟悉期间。为科罚这一问题,可能需要征询并应用更为高效的样本期骗算法。其次,面对寥落奖励的问题,需要探索更为智能的探索政策来草率。

此外,强化学习模子的泛化性能亦然一个攻击议题。不错鉴戒多任务学习和毕生学习的算法,尝试晋升模子在不同环境和任务间的妥贴才调。同期,多智能体环境下的互助问题以及非全都信息博弈中的多智能强化学习问题,亦然改日征询的攻击场合。

临了,咱们还需要温文强化学习在骨子应用中的翻新点,以及在大模子中的高效完结。这些场合的征询将有助于股东强化学习在骨子问题中的平日应用和性能晋升。

以上等于本次共享的内容,谢谢群众。

图片

本站仅提供存储作事,所有这个词内容均由用户发布,如发现存害或侵权内容,请点击举报。