OPEN

본 강의를 통해 배우는 내용:

이론
. 동적 계획법 : 환경을 완벽히 알고 있을 때 최선의 정책을 구하는 방법

. 가치 기반 강화학습의 주요 알고리즘 : TD(0), Q-learning, SARSA, Expected-SARSA

. 정책 기반 강화학습의 주요 알고리즘 : REINFORCE

. 가치 기반 + 정책 기반 강화학습 알고리즘 : Actor-Critic

. 특히 통계학의 주요한 개념을 활용하여, 각 알고리즘을 직관적으로 이해할 수 있는 방법을 소개합니다.

. 중요한 통계학의 개념, 법칙(강의에서 간단하게 소개할 예정입니다.)

확률변수 X, Y가 독립일 때, E(aX+bY+c)=aE(X)+bE(Y)+c, Var(aX+bY+c)=a^2Var(X)+b^2Var(Y)

추정량의 성질 : 일치성, 비편향성, 효율성
실습(Python)
. 확률적 바람 부는 격자 세계에 적용하는 DP, Q-learning(Expected-SARSA), SARSA, REINFORCE, Actor-Critic

이런 분들이 들으면 좋습니다.
강화 학습의 주요 알고리즘과 장단점을 빠르게 배우고 싶다. 물론 스스로 고민해야 할 부분이 있지만, 시간 대비 가장 효율적인 학습이 가능할 것입니다.
강화 학습의 주요 알고리즘에 작동하는 원리를 직관적으로 알고 싶다. 알고리즘을 그냥 배우는 것과 그 작동 원리에 대해 심도있게 배우는 것은 큰 차이가 있습니다. 이때 통계학의 주요 개념을 활용할 수 있습니다.

강의에서 다루지 않는 내용!

. Deep Learning을 활용한 방법(다음 강의에서 소개할 예정입니다)

주요 내용은 다음 페이지를 참조하세요.

이전 강의에 대한 평가입니다.

Plugin Backlinks: 아무 것도 없습니다.

단숨에_배우는_강화학습의_기초