목차

강화 학습

4가지 개념

상태(Status, S) 에이전트가 환경 내 특정 시점에서 관찰할 수 있는 것을 수치화
행동(Action, A) 에이전트가 환경에게 전달하는 입력
보상(Reward, R) 에이전트가 환경으로부터 전달받은 목적을 달성하기 위해 행동을 잘 수행하고 있는지를 피드백하는 신호
모델(Model, M) 행동에 따른 상태 전이가 일어날 확률을 담은 규칙

보상, 이익, 가치 함수 개념

보상(R) 특정 상태에서 얻을 수 있는 즉각적인 피드백
이익(G) 한 에피소드의 특정 상태에서 종단 상태까지 받을 수 있는 보상 총합
가치 함수(V) 특정 상태로부터 기대할 수 있는 보상