OPEN

알려진 모델이 없다고 가정합니다. 즉, 에이전트는 주어진 상태에서 어떤 행동을 취했을 때 어떤 상태로 전이 할지, 어떤 보상이 주어질지 알지 못합니다.
에이전트는 경험의 표본으로부터 학습합니다.
현재까지 겪은 모든 에피소드에 대해 상태의 이익 G를 평균하여 상태의 가치 함수를 구합니다. (경험적 평균)
에피소드 하나를 완전히 끝낸 다음 업데이트합니다.
에피소드 단위 문제에 한하여 적용할 수 있습니다.