CGDPO 알고리즘의 특징 CGDPO 알고리즘은 REINFORCE 알고리즘의 변형으로 다음과 같은 특징이 있습니다. 모델 기반 강화학습 정책 기반 강화학습 역전파를 이용한 정책 신경망의 직접 학습 연속 시간 문제 해결을 위한 초기 상태 랜덤 샘플링 오차가 높은 부분을 타개하기 위한 어댑티브 샘플링 REINFORCE 알고리즘과 1,2번은 동일하지만 3,4,5번에서 차별화됩니다.