기존의 tabular 한 방법론들은 state value 나 action value 를 사용해서 policy 를 생성했습니다. 즉, policy 는 Q-table 을 통해서 (ex. epsilon-greedy) 만들어졌습니다. 하지만 Policy Gradient 부터는 policy 자체를 추정하게 됩니다. 그래서 Value-based Learning 과 Policy-based Learning 은 크게 다음과 같이 나눌 수 있습니다. Value-based 는 뉴럴넷이나 테이블을 이용해서 Q-value 를 계속해서 학습 해 나가고, 이 Q-value 를 이용해서 Policy 를 정하는 것입니다. Policy-based 는 말 그대로 value 를 따로 구하지 않고 policy 만 학습을 하는 것입니다. 그리..
Policy Gradient : REINFORCE
기존의 tabular 한 방법론들은 state value 나 action value 를 사용해서 policy 를 생성했습니다. 즉, policy 는 Q-table 을 통해서 (ex. epsilon-greedy) 만들어졌습니다. 하지만 Policy Gradient 부터는 policy 자체를 추정하게 됩니다. 그래서 Value-based Learning 과 Policy-based Learning 은 크게 다음과 같이 나눌 수 있습니다. Value-based 는 뉴럴넷이나 테이블을 이용해서 Q-value 를 계속해서 학습 해 나가고, 이 Q-value 를 이용해서 Policy 를 정하는 것입니다. Policy-based 는 말 그대로 value 를 따로 구하지 않고 policy 만 학습을 하는 것입니다. 그리..
2024.01.01