강화학습1 밑바닥부터 시작하는 딥러닝 4 p.29 일반적인 강화 학습 문제에서 환경에는 상태 정보가 있습니다. 에이전트가 어떤 행동을 하면 환경의 상태가 바뀌고, 에이전트는 새로운 상태를 관찰하여 적절한 행동을 취합니다. 다만 밴디트 문제에서는 플레이어가 이용하는 슬롯머신들의 확률 설정에 변화가 없습니다. 즉, 환경의 상태가 변하지 않으므로 따로 고려할 필요가 없습니다. p.30 여기서 기억할 것은 슬롯머신 플레이 같은 확률적 사건은 '기댓값'으로 평가할 수 있다는 사실입니다. 다르게 말하면 무작위성에 현혹되지 않기 위해 '기댓값'을 기준으로 삼아야 합니다. 밴디트 문제에서는 보상의 기댓값을 가치(value)라는 특별한 이름으로 부르곤 합니다. 특히 '행동의 결과로 얻는 보상의 기댓값'을 행동 가치(action value)라고 합니다. 그래서 .. 2024. 1. 27. 이전 1 다음