众所周知,Offline RL中最关键的issue是外推误差,也即对于OOD的数据可能会有较大的估计误差,而这个估计误差随着Bootstrapping的过程会被不断传播,导致对整体估值造成影响。为了解决这一问题,现有的算法大致可以分为两类:
1. 策略约束:约束学习的策略和数据集策略相近
2. 悲观值估计:学习悲观的值估计,然后在悲观值估计上做bootstrap,从值估计上规避对OOD data的高估
其中,策略约束的做法又可以分为两类:
1. 约束分布相似,如通过最小化KL散度,这种做法保证了学习到的策略在分布上是相似的。
2. 约束support匹配,也即确保学习过程产生的action是在数据集中相应的support set上的,保证了学习到的action都是数据集中的action。(constrain the set of actions considered for bootstrapping to the support of the dataset D)
显然,support constraint的做法更加细粒度,而分布约束的做法仍然会存在用到OOD action、或者是无法逼近一个多峰分布的行为策略等问题。因此,本论文就关注于support constraint的做法。
作者提到,support constraint的做法可以追溯到BCQ算法, 其使用了一个生成模型来估计和sample 行为策略所产生的action,以此来实现学习到的动作和数据集support相匹配。但显然,BCQ这种做法精度也不高,并且也没有理论保证。较新的一篇Implicit Q-learning (IQL)算法,通过定义in-sample max操作符,来实现在in-sample(也即满足support constraint)前提下的RL学习。但是,IQL仍然很依赖于action distribution,且没有理论保证。
因此,本文就提出了in-sample softmax,在最大熵强化学习理论框架基础上,求解了最优策略的闭式解,并且给出了理论保证。 Background