몬테카를로 학습
MC 학습의 특징
- 알려진 모델이 없다고 가정합니다. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때 어떤 상태로 전이 할지, 어떤 보상이 주어질지 알지 못합니다.
- 에이전트는 경험의 표본으로부터 학습합니다.
- 현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구합니다. (경험적 평균)
- 에피소드 하나를 완전히 끝낸 다음 업데이트합니다.
- 에피소드 단위 문제에 한하여 적용할 수 있습니다.
MC 학습과 정책 반복법의 차이점
- MC 학습은 완전한 가치 함수가 아닌 가치 함수의 추정치만 얻을 수 있다.
- MC 학습은 환경 내 모든 상태의 가치 함수를 추정하는 것이 아니라, 에이전트가 에피소드 안에서 거쳐간 상태의 가치 함수만 추청
Docs
관련 문서
Plugin Backlinks: 아무 것도 없습니다.