초보자를 위한 강화학습 기본
강화 학습이란
상황에 따라 보상을 최대로 하는 의사 결정을 하는 방법
강화학습의 요소
지도학습 : gpt, stable diffusion, copilot 등… 왜 강화 학습이 필요한걸까?? 사람이 생각하지 못하는 수에 대한 추론
![]()
Robot에서의 예..
![]()
Drone 예
GPT 마지막 단계
이미지 생성
chip design
- input : state S
- solution : action A
- Model : policy
지도학습 vs 강화학습
강화 학습 예
Markov reward process
Markov decision process
강화 학습 용어
강화 학습 문제를 해결하는 방법(모방 학습)