首页 > AI资讯 > 最新资讯 > 你真的了解什么是强化学习吗?

你真的了解什么是强化学习吗?

新火种    2023-09-09

2016年3月,AlphaGo与围棋世界冠军、职业九段棋手李世石进行围棋人机大战,以4比1的总比分获胜;

2016年末2017年初,AlphaGo在中国棋类网站顶着“大师”的名号与中日韩数十位围棋高手进行快棋对决,连续60局无一败绩;

2017年5月,在中国乌镇围棋峰会上,AlphaGo与排名世界第一的世界围棋冠军柯洁对战,以3比0的总比分获胜;

不久后,DeepMind团队又推出了AlphaGo Zero,在与AlphaGo进行对弈时取得了100-0的碾压式胜利。

听到这些新闻,我们不禁会感叹,科技发展之迅速,人工智能之强大。那么AlphaGo究竟是靠着什么能力才能战胜诸多高手专家,甚至被围棋界公认AlphaGo的棋力已经超过了人类职业围棋顶尖水平呢?

答案就是——神奇的强化学习。

什么是强化学习?在初高中的生物课堂上我们经常会听到一类实验——巴普洛夫的条件反射试验。

该实验分为四个阶段,第一阶段将食物放进狗的口中,狗自然分泌了唾液;第二阶段,在狗看不见的地方发出铃声,此时狗并不会分泌唾液;第三阶段在狗进食前,发出相同的一段铃声,之后看到食物的狗就分泌了唾液,重复该阶段多次;第四阶段即使不给狗递上食物,光摇铃铛,狗就分泌了唾液。

这个试验和强化学习有什么关系呢?其实,强化学习就是模仿生物学习的过程,巴普洛夫试验实际上就是狗学会听到铃声就分泌唾液的学习过程,通过食物这个奖励来不断强化狗听到铃声就分泌唾液的行为,而强化学习本身就是通过奖励来不断强化某一行为的学习过程。

AI的强化学习,其实就类似以上的过程,将AI放在某个特定环境中并采取行动,而环境如何对AI的行动做出反应将由一个已知的或未知的模型来决定。AI可以通过做出行动从一个状态A进入到另一个状态B,AI能够进入什么新状态则由状态间的转移概率决定。每当AI执行了一个动作,环境会根据这个行为给予一定的奖励作为反馈。

在上述这一过程中,转移概率和奖励反馈均由模型来定义。而模型可以是已知的也可以是未知的。对于已知的模型,我们就可以通过动态规划来找到相应的最优策略,而对于未知的模型,可以通过模拟模型本身而后继续进行模型已知的强化学习,在大多数的应用场景中,模型都是未知的。

那么强化学习在金融领域又有什么应用呢?

目前,强化学习主要应用于量化投资的领域,包括投资组合管理、单资产交易信号、交易执行、期权对冲和定价等等。

比如投资组合管理,本质是如何完成好灵活分配资产权重获得更高超额收益的问题,现有的基金的解决方案大多是对股票的基本面进行分析,对该支股票的各个维度进行打分,衡量它的涨价潜力,从而买入涨价潜力高的股票并增加权重,卖出有较大可能亏损或评分相对较低的股票,是一个多时间序列上的权重分配问题,而强化学习可以很好的胜任这一工作。强化学习的目标设定灵活,可以考虑交易手续费、风险等因素,同时强化学习可以直接生成对应资产的权重,可以更加灵活的进行权重分配。

强化学习以它独特的优势占据了量化投资的一片天地,但新技术的运用当然也会面临一些挑战,面对模型未知的情况下如何更好模拟预测模型?如何更加灵活的设计和应用模型?训练集和测试集的分布差异怎么有效降低?

新技术的诞生总是伴随着无穷无尽的挑战和质疑,强化学习究竟能够走多久,走多远,时间会告诉我们答案。

Tags:
相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。

热门文章