본문 바로가기

전체 글3304

24년 1월 28일 I never did a day's work in my life. It was all fun. 나는 평생 하루도 일을 하지 않았다. 그것은 모두 재미있는 놀이였다. / Edison 2024. 1. 28.
밑바닥부터 시작하는 딥러닝 4 p.29 일반적인 강화 학습 문제에서 환경에는 상태 정보가 있습니다. 에이전트가 어떤 행동을 하면 환경의 상태가 바뀌고, 에이전트는 새로운 상태를 관찰하여 적절한 행동을 취합니다. 다만 밴디트 문제에서는 플레이어가 이용하는 슬롯머신들의 확률 설정에 변화가 없습니다. 즉, 환경의 상태가 변하지 않으므로 따로 고려할 필요가 없습니다. p.30 여기서 기억할 것은 슬롯머신 플레이 같은 확률적 사건은 '기댓값'으로 평가할 수 있다는 사실입니다. 다르게 말하면 무작위성에 현혹되지 않기 위해 '기댓값'을 기준으로 삼아야 합니다. 밴디트 문제에서는 보상의 기댓값을 가치(value)라는 특별한 이름으로 부르곤 합니다. 특히 '행동의 결과로 얻는 보상의 기댓값'을 행동 가치(action value)라고 합니다. 그래서 .. 2024. 1. 27.
23년 1월 26일 If you wish success in life, make perseverance your bosom friend, experience your wise counselor, caution your elder brother and hope your guardian genius. 인생에서 성공하려거든 끈기를 죽마고우로, 경험을 현명한 조언자로, 신중을 형님으로, 희망을 수호신으로 삼아라. / Joseph Addison 2024. 1. 26.
24년 1월 25일 It is impossible for anyone to begin to learn that which he thinks he already knows. 누구든 이미 알고 있다고 생각하는 것을 배우는 건 불가능하다. / Epictetus 2024. 1. 25.
24년 1윌 24일 You've got to find what you love. And that is as true for your work as it is for your lovers. Steve Jobs 2024. 1. 24.
스파크 완벽 가이드 2024. 1. 21.