## 단숨에_배우는_강화학습의_기초 본 강의를 통해 배우는 내용: - 이론 . 동적 계획법 : 환경을 완벽히 알고 있을 때 최선의 정책을 구하는 방법 . 가치 기반 강화학습의 주요 알고리즘 : TD(0), Q-learning, SARSA, Expected-SARSA . 정책 기반 강화학습의 주요 알고리즘 : REINFORCE . 가치 기반 + 정책 기반 강화학습 알고리즘 : Actor-Critic . 특히 통계학의 주요한 개념을 활용하여, 각 알고리즘을 직관적으로 이해할 수 있는 방법을 소개합니다. . 중요한 통계학의 개념, 법칙(강의에서 간단하게 소개할 예정입니다.) 확률변수 X, Y가 독립일 때, E(aX+bY+c)=aE(X)+bE(Y)+c, Var(aX+bY+c)=a^2Var(X)+b^2Var(Y) 추정량의 성질 : 일치성, 비편향성, 효율성 - 실습(Python) . 확률적 바람 부는 격자 세계에 적용하는 DP, Q-learning(Expected-SARSA), SARSA, REINFORCE, Actor-Critic 이런 분들이 들으면 좋습니다. - 강화 학습의 주요 알고리즘과 장단점을 빠르게 배우고 싶다. 물론 스스로 고민해야 할 부분이 있지만, 시간 대비 가장 효율적인 학습이 가능할 것입니다. - 강화 학습의 주요 알고리즘에 작동하는 원리를 직관적으로 알고 싶다. 알고리즘을 그냥 배우는 것과 그 작동 원리에 대해 심도있게 배우는 것은 큰 차이가 있습니다. 이때 통계학의 주요 개념을 활용할 수 있습니다. 강의에서 다루지 않는 내용! . Deep Learning을 활용한 방법(다음 강의에서 소개할 예정입니다) 주요 내용은 다음 페이지를 참조하세요. http://blog.naver.com/kwonpub/221167111861 이전 강의에 대한 평가입니다. https://blog.naver.com/kwonpub/221160505582