46.PG算法 强化学习,又称再励学习、评价学习或增强学习
PG算法采用策略梯度。
接下来,我们将详细解释PG算法的策略。与使用Q表格或Q网络不同,策略梯度从整体轨迹和游戏轮次的角度来评价策略的优劣,而不是仅
策略梯度的优化方式采用直接网络。此外,PG算法还有其他实现方式,如蒙特卡洛和时序差分。
蒙特卡洛是PG算法中一种常用的方法。蒙特卡洛算法通过强化学习算法实现,每次迭代会获取一系列数据。根据数据进行更新,以达到最大化奖励的目的。蒙特卡洛算法需要计算未来总收益,并通过最大化策略梯度来更新参数。
时序差分是一种演员-商品化-压力C模型。我们将在后面详细介绍。
HRHR BOX是PG算法中最经典的算法之一,其过程如下:对于每个回合和每个episode,循环获取数据并更新参数。对于每个episode,计算未来总收益并通过最大化策略梯度来更新参数。
HRHR BOX算法需要优化参数0。这种优化方法就是梯度上升法,通过它来逐步更新策略,从而实现最优控制。在整个 Episode 中,针对每个动作都会计算出相应的损失值。与监督学习类似,策略梯度通过计算策略对不同状态的期望输出和实际输出的差距,来进行参数更新。
在监督学习中,我们通过交叉熵损失函数来计算预测结果和真实标签之间的差距。在神经网络中,预测结果是输出的概率,而真实标签则是实际输出。因此,我们可以通过计算预测结果和真实标签之间的差距,来更新参数。
在策略记录中,我们会输出每个动作的概率。得到概率后,我们需要根据真实的状态和输出的概率来确定每个状态下应该采取的动作,并计算出每个动作的概率。
但是,实际输出的动作是随机选择的。例如,如果选择向右,输出的热向量就是001。如果选择向左,输出的热向量就是010。将神经网络的输出与实际动作的热向量进行比较,可以计算出两者之间的差距。
这种差距代表着什么?但是,实际动作只是概率输出,不一定是正确的。因此,我们需要考虑未来总收益的权重,即未来总收益作为权重。
如果总收益较低,那么权重就会降低,回报对损失的影响就会更大。因为GT代表着真正意义上的真实动作,代表着未来总收益,因此机器的总收益越高,奖励就越高。
因此,我们需要更重视损失函数的值,因为它代表着机器的表现。如果GT越小,说明这个动作越不好,损失值就会越小,优化力度也会更小。
因此,优化过程需要考虑未来总收益的权重。最后是loss计算,即通过将真实情况与概率进行比较,计算出奖励,并将其与奖励权重相乘,从而得出损失。对于每个动作,向左还是不动还是向右,都会有一个相应的动作概率,将之前的动作与之相乘,得到一个结果,例如100,再将其乘以奖励,即可得出损失。这部分介绍了策略梯度,但它是基于策略的强化学习的基础,因此我们将在下一节中考虑它。
- 免责声明
- 本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。