open:강화-학습

강화 학습

상태(Status, S) 에이전트가 환경 내 특정 시점에서 관찰할 수 있는 것을 수치화
행동(Action, A) 에이전트가 환경에게 전달하는 입력
보상(Reward, R) 에이전트가 환경으로부터 전달받은 목적을 달성하기 위해 행동을 잘 수행하고 있는지를 피드백하는 신호
모델(Model, M) 행동에 따른 상태 전이가 일어날 확률을 담은 규칙
보상(R) 특정 상태에서 얻을 수 있는 즉각적인 피드백
이익(G) 한 에피소드의 특정 상태에서 종단 상태까지 받을 수 있는 보상 총합
가치 함수(V) 특정 상태로부터 기대할 수 있는 보상
  • open/강화-학습.txt
  • 마지막으로 수정됨: 2021/12/30 07:34
  • 저자 127.0.0.1