강화 학습

4가지 개념

상태(Status, S)	에이전트가 환경 내 특정 시점에서 관찰할 수 있는 것을 수치화
행동(Action, A)	에이전트가 환경에게 전달하는 입력
보상(Reward, R)	에이전트가 환경으로부터 전달받은 목적을 달성하기 위해 행동을 잘 수행하고 있는지를 피드백하는 신호
모델(Model, M)	행동에 따른 상태 전이가 일어날 확률을 담은 규칙

보상(R)	특정 상태에서 얻을 수 있는 즉각적인 피드백
이익(G)	한 에피소드의 특정 상태에서 종단 상태까지 받을 수 있는 보상 총합
가치 함수(V)	특정 상태로부터 기대할 수 있는 보상