격자세계1 5 랜덤시도를 통하여 순차 결정 문제 해결 1. MDP 문제 풀기 MDP(Markov Decision Process, 마르코프 의사결정 과정) 문제를 해결하기 위한 주요 방법들을 각각의 특징과 작동 원리를 중심으로 서술해 보겠습니다.1) 몬테 카를로 기법(Monte-Carlo Method) • 핵심 개념: 몬테 카를로 기법은 샘플링을 통해 MDP의 상태 가치나 행동 가치를 추정하는 방법입니다. 환경 모델에 대한 사전 지식이 필요하지 않고, 시뮬레이션을 통해 상태-행동 쌍에 대한 경험 데이터를 수집합니다.• 작동 방식:• 에피소드를 여러 번 시뮬레이션하여, 각 상태에 대한 평균 보상을 계산합니다.• 에피소드 종료 후 얻은 보상 데이터를 기반으로 상태 가치나 행동 가치를 업데이트합니다.• 주로 에피소드 단위로 학습이 이루어집니다.• 장점:• 환경의 .. 2024. 11. 24. 이전 1 다음