일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- ADsP시험방법
- ~8월까지
- adsp시험후기
- 정처기실기후기
- 일본편의점
- 생성형ai
- 도쿄여행
- 정처기실기
- 키디랜드
- 랄프커피
- 오모테산도힐즈
- 스카이트리
- 캐릭터스트리트
- 시부야스크램블교차로
- 마츠리
- 다이마루백화점
- 일본녹차
- 오모테산도
- 도쿄아사히
- ADsP
- ChatGPT
- 가보자고
- 도쿄디즈니랜드
- 정처기실기준비
- 아자뵤
- 목록
- 가라오케
- 도쿄스카이트리
- 대4인생
- 야키토리
- Today
- Total
목록강화학습 (Reinforcement Learning) (3)
+ Repository +

* 위 정리는 David Silver 교수님의 Reinforcement Learining 강의 및 팡요랩 youtube강의를 듣고 공부한 내용입니다. 이 외에도 구글에서 검색된 여러 자료들을 참고하여 정리하였습니다. 정리의 목적은 오로지 개인의 공부입니다. Model Free 이므로, 여전히 env에 관한 정보 없이 최적의 policy를 찾는 문제이다. (최적의 Policy 찾기 = 어떻게 행동할 지 알기) On-Policy Monte-Carlo Control 가장 먼저, Policy에는 와 가 있다. On-policy Learing의 경우, 두 Policy가 같은 경우를 말 하고, (ex, 알파고) Off-policy Learning의 경우, 두 Policy가 같지 않은 경우를 말한다. 즉, 다른사람들..

* David Silver _ Reinforcement Learning 강의자료 및 팡요랩 강화학습 강의를 토대로 공부하여 정리한 내용입니다. 1. Introduction 2. Incremental Methods 3. Batch Methods 강화학습의 Model Free 한 상황에서 문제의 사이즈가 확장되었을 때 어떻게 해결하는가. Prediction 과 Control로 나눠서 살펴볼 수 있다. 지금까지는 Value function을 Lookup table을 이용해 나타냈다. - Value function의 경우에는 모든 state s 에 대한 빈칸이 필요했고 - Action Value funtion의 경우에는 모든 s-a 쌍에 대한 빈칸이 필요했다. 하지만, MDP의 사이즈가 커진다면 메모리 용량문제..

* David Silver _ Reinforcement Learning 강의자료를 토대로 공부하여 정리한 내용입니다. Model-Free : 주어진 environment를 모르는 상황. MDP : Markov Decision Process Model-Based인 MDP문제를 푸는 방법에는 (Planning) 이와같이 Prediction과 Control이 있다. - Prediction : 주어진 policy를 평가하는 것. (value function을 찾는 것) - Control : Optimal한 policy를 찾아내는 것. 이와같이 Model-Free한 상황에서도 value function을 추정하는 Prediction과, 최적화하는 Control로 나눌 수 있다. 이번장에서 다룰 내용은 MDP를 모..