강화학습
-
Prediction은 Evaluation과 같다고 생각하시면 됩니다. 강화학습에서 Prediction은 Policy가 주어져 있을 때 각각의 state가 몇 점인지 평가를 해 주는 것입니다. Control은 결국에는 가장 좋은 것을 찾는 것입니다. 그리고 강화학습에서 가장 좋은 것은 즉, 최적의 Policy입니다. 그리고 최적의 Policy를 찾는 데에는 두 가지 방법이 있는데, 이 두 개는 사실상 같은 것이라고 할 수 있습니다. Value iteration은 Policy iteration의 특수한 경우입니다. 오늘은 1) 평가하는 것, 2) 가장 좋은 것을 찾는 것 이라는 두 가지를 다룰 텐데 이는 모두 MDP라는 특수한 환경에서 이루어집니다. 그리고 MDP를 풀 때는 여러가지 방식이 있지만 '모델을 ..
Dynamic ProgrammingPrediction은 Evaluation과 같다고 생각하시면 됩니다. 강화학습에서 Prediction은 Policy가 주어져 있을 때 각각의 state가 몇 점인지 평가를 해 주는 것입니다. Control은 결국에는 가장 좋은 것을 찾는 것입니다. 그리고 강화학습에서 가장 좋은 것은 즉, 최적의 Policy입니다. 그리고 최적의 Policy를 찾는 데에는 두 가지 방법이 있는데, 이 두 개는 사실상 같은 것이라고 할 수 있습니다. Value iteration은 Policy iteration의 특수한 경우입니다. 오늘은 1) 평가하는 것, 2) 가장 좋은 것을 찾는 것 이라는 두 가지를 다룰 텐데 이는 모두 MDP라는 특수한 환경에서 이루어집니다. 그리고 MDP를 풀 때는 여러가지 방식이 있지만 '모델을 ..
2025.01.31 -
강화학습에서 가장 중요한 것을 다시 짚어보면 다음과 같습니다. Environment: Agent를 제외한 모든 것State: 환경 중에서도 우리에게 필요한 정보들Rewards: Agent가 판단을 내렸을 때 이에 대한 보상값(스칼라)Return: 리워드의 기댓값(최종적으로 받을 수 있는 보상의 기댓값)AgentPolicydeterministic: 어떤 state에서는 어떤 action을 해라stochastic: 이런 state에서는 이런 action을 할 확률이 얼마 Value: 리턴의 기댓값이 상황이 얼마나 좋은지 나쁜지를 나타내는 값Model: action을 했을 때 받을 수 있는 리워드에 대한 정의내가 이 행동을 하면 어디로 갈까? (어떻게 될까?) Markov Property현재의 나의 stat..
Markov Decision Process (MDP) & Bellman Equation강화학습에서 가장 중요한 것을 다시 짚어보면 다음과 같습니다. Environment: Agent를 제외한 모든 것State: 환경 중에서도 우리에게 필요한 정보들Rewards: Agent가 판단을 내렸을 때 이에 대한 보상값(스칼라)Return: 리워드의 기댓값(최종적으로 받을 수 있는 보상의 기댓값)AgentPolicydeterministic: 어떤 state에서는 어떤 action을 해라stochastic: 이런 state에서는 이런 action을 할 확률이 얼마 Value: 리턴의 기댓값이 상황이 얼마나 좋은지 나쁜지를 나타내는 값Model: action을 했을 때 받을 수 있는 리워드에 대한 정의내가 이 행동을 하면 어디로 갈까? (어떻게 될까?) Markov Property현재의 나의 stat..
2025.01.30 -
셀프 강화학습 재수강 1. Introduction of Reinforcement Learning2. Basic concept of Reinforcement Learning3. Markov decision process4. Dynamic programming5. Monte Carlo6. Temporal difference7. MC Control8. TD Control SARSA9. TD Control Q-learning10. Function Approximation11. Policy gradient - REINFORCE12. Policy gradient - Actor Critic13. DQN14. DDQN15. TRPO16. PPO17. A3C18. TD319. SAC20. Model-based RL
강화학습 수업 Navigator셀프 강화학습 재수강 1. Introduction of Reinforcement Learning2. Basic concept of Reinforcement Learning3. Markov decision process4. Dynamic programming5. Monte Carlo6. Temporal difference7. MC Control8. TD Control SARSA9. TD Control Q-learning10. Function Approximation11. Policy gradient - REINFORCE12. Policy gradient - Actor Critic13. DQN14. DDQN15. TRPO16. PPO17. A3C18. TD319. SAC20. Model-based RL
2025.01.30 -
기존의 tabular한 방법론들은 state value나 action value 를 사용해서 policy를 생성했습니다. 즉, policy 는 Q-table을 통해서 (ex. epsilon-greedy) 만들어졌습니다. 하지만 Policy Gradient부터는 policy자체를 추정하게 됩니다. 그래서 Value-based Learning과 Policy-based Learning은 크게 다음과 같이 나눌 수 있습니다.Value-based는 뉴럴넷이나 테이블을 이용해서 Q-value를 계속해서 학습 해 나가고, 이 Q-value를 이용해서 Policy를 정하는 것입니다.Policy-based는 말 그대로 value를 따로 구하지 않고 policy만 학습을 하는 것입니다. 그리고 Actor-Critic은 둘..
Policy Gradient : REINFORCE기존의 tabular한 방법론들은 state value나 action value 를 사용해서 policy를 생성했습니다. 즉, policy 는 Q-table을 통해서 (ex. epsilon-greedy) 만들어졌습니다. 하지만 Policy Gradient부터는 policy자체를 추정하게 됩니다. 그래서 Value-based Learning과 Policy-based Learning은 크게 다음과 같이 나눌 수 있습니다.Value-based는 뉴럴넷이나 테이블을 이용해서 Q-value를 계속해서 학습 해 나가고, 이 Q-value를 이용해서 Policy를 정하는 것입니다.Policy-based는 말 그대로 value를 따로 구하지 않고 policy만 학습을 하는 것입니다. 그리고 Actor-Critic은 둘..
2024.01.01