강화학습
-
강화학습에서 가장 중요한 것을 다시 짚어보면 다음과 같습니다. Environment: Agent를 제외한 모든 것State: 환경 중에서도 우리에게 필요한 정보들Rewards: Agent가 판단을 내렸을 때 이에 대한 보상값(스칼라)Return: 리워드의 기댓값(최종적으로 받을 수 있는 보상의 기댓값)AgentPolicydeterministic: 어떤 state에서는 어떤 action을 해라stochastic: 이런 state에서는 이런 action을 할 확률이 얼마 Value: 리턴의 기댓값이 상황이 얼마나 좋은지 나쁜지를 나타내는 값Model: action을 했을 때 받을 수 있는 리워드에 대한 정의내가 이 행동을 하면 어디로 갈까? (어떻게 될까?) Markov Property현재의 나의 stat..
Markov Decision Process (MDP) & Bellman Equation강화학습에서 가장 중요한 것을 다시 짚어보면 다음과 같습니다. Environment: Agent를 제외한 모든 것State: 환경 중에서도 우리에게 필요한 정보들Rewards: Agent가 판단을 내렸을 때 이에 대한 보상값(스칼라)Return: 리워드의 기댓값(최종적으로 받을 수 있는 보상의 기댓값)AgentPolicydeterministic: 어떤 state에서는 어떤 action을 해라stochastic: 이런 state에서는 이런 action을 할 확률이 얼마 Value: 리턴의 기댓값이 상황이 얼마나 좋은지 나쁜지를 나타내는 값Model: action을 했을 때 받을 수 있는 리워드에 대한 정의내가 이 행동을 하면 어디로 갈까? (어떻게 될까?) Markov Property현재의 나의 stat..
2025.01.30 -
기존의 tabular한 방법론들은 state value나 action value 를 사용해서 policy를 생성했습니다. 즉, policy 는 Q-table을 통해서 (ex. epsilon-greedy) 만들어졌습니다. 하지만 Policy Gradient부터는 policy자체를 추정하게 됩니다. 그래서 Value-based Learning과 Policy-based Learning은 크게 다음과 같이 나눌 수 있습니다.Value-based는 뉴럴넷이나 테이블을 이용해서 Q-value를 계속해서 학습 해 나가고, 이 Q-value를 이용해서 Policy를 정하는 것입니다.Policy-based는 말 그대로 value를 따로 구하지 않고 policy만 학습을 하는 것입니다. 그리고 Actor-Critic은 둘..
Policy Gradient : REINFORCE기존의 tabular한 방법론들은 state value나 action value 를 사용해서 policy를 생성했습니다. 즉, policy 는 Q-table을 통해서 (ex. epsilon-greedy) 만들어졌습니다. 하지만 Policy Gradient부터는 policy자체를 추정하게 됩니다. 그래서 Value-based Learning과 Policy-based Learning은 크게 다음과 같이 나눌 수 있습니다.Value-based는 뉴럴넷이나 테이블을 이용해서 Q-value를 계속해서 학습 해 나가고, 이 Q-value를 이용해서 Policy를 정하는 것입니다.Policy-based는 말 그대로 value를 따로 구하지 않고 policy만 학습을 하는 것입니다. 그리고 Actor-Critic은 둘..
2024.01.01