open:단숨에-배우는-강화학습의-기초

본 강의를 통해 배우는 내용:

  • 이론

    . 동적 계획법 : 환경을 완벽히 알고 있을 때 최선의 정책을 구하는 방법

    . 가치 기반 강화학습의 주요 알고리즘 : TD(0), Q-learning, SARSA, Expected-SARSA

    . 정책 기반 강화학습의 주요 알고리즘 : REINFORCE

    . 가치 기반 + 정책 기반 강화학습 알고리즘 : Actor-Critic

    . 특히 통계학의 주요한 개념을 활용하여, 각 알고리즘을 직관적으로 이해할 수 있는 방법을 소개합니다.

    . 중요한 통계학의 개념, 법칙(강의에서 간단하게 소개할 예정입니다.)

    확률변수 X, Y가 독립일 때, E(aX+bY+c)=aE(X)+bE(Y)+c, Var(aX+bY+c)=a^2Var(X)+b^2Var(Y)

    추정량의 성질 : 일치성, 비편향성, 효율성

  • 실습(Python)

    . 확률적 바람 부는 격자 세계에 적용하는 DP, Q-learning(Expected-SARSA), SARSA, REINFORCE, Actor-Critic

    이런 분들이 들으면 좋습니다.

  • 강화 학습의 주요 알고리즘과 장단점을 빠르게 배우고 싶다. 물론 스스로 고민해야 할 부분이 있지만, 시간 대비 가장 효율적인 학습이 가능할 것입니다.
  • 강화 학습의 주요 알고리즘에 작동하는 원리를 직관적으로 알고 싶다. 알고리즘을 그냥 배우는 것과 그 작동 원리에 대해 심도있게 배우는 것은 큰 차이가 있습니다. 이때 통계학의 주요 개념을 활용할 수 있습니다.

강의에서 다루지 않는 내용!

. Deep Learning을 활용한 방법(다음 강의에서 소개할 예정입니다)

주요 내용은 다음 페이지를 참조하세요.

http://blog.naver.com/kwonpub/221167111861

이전 강의에 대한 평가입니다.

https://blog.naver.com/kwonpub/221160505582


  • open/단숨에-배우는-강화학습의-기초.txt
  • 마지막으로 수정됨: 2020/06/02 09:25
  • 저자 127.0.0.1