강의/인공지능개론
2024. 6. 7.
강화학습 : reinforcement learning
강화학습어떠한 모르는 환경에서 동작하는 에이전트가 있을 때, 에이전트가 현재 상태에서 향후 기대되는 누적 보상값이 최대가 되도록 행동을 선택하는 정책을 찾는 것 -> 마르코프 결정 과정 : MDP 사용 마르코프 결정 과정 : markov decision process상태 전이가 현재 상태인 St와 입력(행동) At에 의해 확률적으로 결정되는 모델-> 마르코프 모델 미래 상태 St+1은 현재 상태 St에만 영향을 받으며 과거 상태 St-1,...에는 영향을 받지 않는 시스템에 대한 확률 모델 => 강화학습의 목적 : 기대 누적 보상값이 최대가 되도록 하는 정책을 찾는 것 정책이란? 각 상태에서 선택할 행동을 지칭함 누적 보상치- 단순 합계 : 단순하게 연속적으로 보상치를 더함- 할인 누..