論文のポイントを抑えていったものです。(途中どうみてもポイントを抑えるに留まっていない部分がありますが)
- Reinforcement Learning(RL)は高次元の感覚的入力を学習するのに良いが、そのようなシステムの性能は特徴表現に強く依存する。
- Deep Learningはコンピュータビジョンの分野(Imagenetとか)で大きな成果をあげたり、音声認識で大きな成果をあげた
- 当然Deep LearningはRLにも応用が期待されるが、Deep Learningの成功は人間によって作られた大量の訓練データに大きく依存し、RLの報酬は、うまく適合しない。というのも、行動と報酬は教師あり学習のように与えられるものでなく、時間的差異がある。
- また、教師あり学習では、学習データは独立しているが、強化学習においては、似通った状態に連続して遭遇することになる。
- さらにDeep Learningでは、背後にある確率分布は一定であると仮定されているが、RLでは行動方針の変化とともに、確率分布が変動する。
- この論文では、たたみ込みニューラルネットによって、これらの困難を高いし、環境から生の映像データを用いることによって、良い方針を学習することを示す。