open:몬테카를로-학습

몬테카를로 학습

  1. 알려진 모델이 없다고 가정합니다. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때 어떤 상태로 전이 할지, 어떤 보상이 주어질지 알지 못합니다.
  2. 에이전트는 경험의 표본으로부터 학습합니다.
  3. 현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구합니다. (경험적 평균)
  4. 에피소드 하나를 완전히 끝낸 다음 업데이트합니다.
  5. 에피소드 단위 문제에 한하여 적용할 수 있습니다.
  1. MC 학습은 완전한 가치 함수가 아닌 가치 함수의 추정치만 얻을 수 있다.
  2. MC 학습은 환경 내 모든 상태의 가치 함수를 추정하는 것이 아니라, 에이전트가 에피소드 안에서 거쳐간 상태의 가치 함수만 추청
  • open/몬테카를로-학습.txt
  • 마지막으로 수정됨: 2021/12/30 11:13
  • 저자 127.0.0.1