본문 바로가기

전체 글3303

밑바닥부터 시작하는 딥러닝 4 p.29 일반적인 강화 학습 문제에서 환경에는 상태 정보가 있습니다. 에이전트가 어떤 행동을 하면 환경의 상태가 바뀌고, 에이전트는 새로운 상태를 관찰하여 적절한 행동을 취합니다. 다만 밴디트 문제에서는 플레이어가 이용하는 슬롯머신들의 확률 설정에 변화가 없습니다. 즉, 환경의 상태가 변하지 않으므로 따로 고려할 필요가 없습니다. p.30 여기서 기억할 것은 슬롯머신 플레이 같은 확률적 사건은 '기댓값'으로 평가할 수 있다는 사실입니다. 다르게 말하면 무작위성에 현혹되지 않기 위해 '기댓값'을 기준으로 삼아야 합니다. 밴디트 문제에서는 보상의 기댓값을 가치(value)라는 특별한 이름으로 부르곤 합니다. 특히 '행동의 결과로 얻는 보상의 기댓값'을 행동 가치(action value)라고 합니다. 그래서 .. 2024. 1. 27.
23년 1월 26일 If you wish success in life, make perseverance your bosom friend, experience your wise counselor, caution your elder brother and hope your guardian genius. 인생에서 성공하려거든 끈기를 죽마고우로, 경험을 현명한 조언자로, 신중을 형님으로, 희망을 수호신으로 삼아라. / Joseph Addison 2024. 1. 26.
24년 1월 25일 It is impossible for anyone to begin to learn that which he thinks he already knows. 누구든 이미 알고 있다고 생각하는 것을 배우는 건 불가능하다. / Epictetus 2024. 1. 25.
24년 1윌 24일 You've got to find what you love. And that is as true for your work as it is for your lovers. Steve Jobs 2024. 1. 24.
스파크 완벽 가이드 2024. 1. 21.
히틀러 I p.9 히틀러와 나치즘이 독일 사회에 잘 아물지 않는 상처를 남겼고 방식은 다르지만 나치에게 당한 수천만 명의 희생자에게도 당연히 치유되지 못할 상처를 남겼다는 것은 두말하면 잔소리다. 하지만 히틀러의 유산은 우리 모두의 것이다. 그 유산에는 어떻게 히틀러가 가능했는지를 이해하려고 지속적으로 노력해야 할 의무도 들어간다. 우리는 오직 역사를 통해서만 미래를 위해서 배울 수가 있다. 그리고 그 점에서 아돌프 히틀러가 지배했던 시대보다 역사에서 더 중요한 시기는 없다. 2024. 1. 21.