문서 보기역링크PDF로 내보내기맨 위로 이 문서는 읽기 전용입니다. 원본을 볼 수는 있지만 바꿀 수는 없습니다. 문제가 있다고 생각하면 관리자에게 문의하세요. # 강화 학습 ## 4가지 개념 ^ 상태(Status, S) | 에이전트가 환경 내 특정 시점에서 관찰할 수 있는 것을 수치화 | ^ 행동(Action, A) | 에이전트가 환경에게 전달하는 입력 | ^ 보상(Reward, R) | 에이전트가 환경으로부터 전달받은 목적을 달성하기 위해 행동을 잘 수행하고 있는지를 피드백하는 신호 | ^ 모델(Model, M) | 행동에 따른 상태 전이가 일어날 확률을 담은 규칙 | ### 보상, 이익, 가치 함수 개념 ^ 보상(R) | 특정 상태에서 얻을 수 있는 즉각적인 피드백 | ^ 이익(G) | 한 에피소드의 특정 상태에서 종단 상태까지 받을 수 있는 보상 총합 | ^ 가치 함수(V) | 특정 상태로부터 기대할 수 있는 보상 | open/강화-학습.txt 마지막으로 수정됨: 2021/12/30 07:34저자 127.0.0.1