## 단숨에_배우는_강화학습의_기초


본 강의를 통해 배우는 내용:


- 이론

  . 동적 계획법 : 환경을 완벽히 알고 있을 때 최선의 정책을 구하는 방법

  . 가치 기반 강화학습의 주요 알고리즘 : TD(0), Q-learning, SARSA, Expected-SARSA

  . 정책 기반 강화학습의 주요 알고리즘 : REINFORCE

  . 가치 기반 + 정책 기반 강화학습 알고리즘 : Actor-Critic

  . 특히 통계학의 주요한 개념을 활용하여, 각 알고리즘을 직관적으로 이해할 수 있는 방법을 소개합니다. 

  . 중요한 통계학의 개념, 법칙(강의에서 간단하게 소개할 예정입니다.)

      확률변수 X, Y가 독립일 때, E(aX+bY+c)=aE(X)+bE(Y)+c, Var(aX+bY+c)=a^2Var(X)+b^2Var(Y)

      추정량의 성질 : 일치성, 비편향성, 효율성


- 실습(Python)

  . 확률적 바람 부는 격자 세계에 적용하는 DP, Q-learning(Expected-SARSA), SARSA, REINFORCE, Actor-Critic

 
이런 분들이 들으면 좋습니다.

- 강화 학습의 주요 알고리즘과 장단점을 빠르게 배우고 싶다. 물론 스스로 고민해야 할 부분이 있지만, 시간 대비 가장 효율적인 학습이 가능할 것입니다.

- 강화 학습의 주요 알고리즘에 작동하는 원리를 직관적으로 알고 싶다. 알고리즘을 그냥 배우는 것과 그 작동 원리에 대해 심도있게 배우는 것은 큰 차이가 있습니다. 이때 통계학의 주요 개념을 활용할 수 있습니다.


강의에서 다루지 않는 내용!

. Deep Learning을 활용한 방법(다음 강의에서 소개할 예정입니다)

 
주요 내용은 다음 페이지를 참조하세요. 

http://blog.naver.com/kwonpub/221167111861

 
이전 강의에 대한 평가입니다.

https://blog.naver.com/kwonpub/221160505582