less than 1 minute read

강화 학습이란

image
상황에 따라 보상을 최대로 하는 의사 결정을 하는 방법

강화학습의 요소

image

image

지도학습 : gpt, stable diffusion, copilot 등… 왜 강화 학습이 필요한걸까?? 사람이 생각하지 못하는 수에 대한 추론
image
Robot에서의 예..
image
Drone 예 image

GPT 마지막 단계
image 이미지 생성
image chip design
image

image

image

  • input : state S
  • solution : action A
  • Model : policy

지도학습 vs 강화학습

image
image

image

강화 학습 예

image

image

Markov reward process

Markov decision process

image
image
image
image
image
image

강화 학습 용어

image

강화 학습 문제를 해결하는 방법(모방 학습)

image image

참고자료

image
https://rail.eecs.berkeley.edu/deeprlcourse/

Tags:

Categories:

Updated: