on-policy

Here are 19 public repositories matching this topic...

shaheennabi / SARSA-On-Policy

A minimal, from-scratch implementation of SARSA (on-policy, model-free RL) on a custom GridWorld with no external RL libraries. Emphasizes algorithmic clarity and correct temporal dynamics for understanding model-free control from first principles.

control reinforcement-learning on-policy model-free-rl td-control

Updated Dec 28, 2025
Python

Trenza1ore / sb3-extra-buffers

Star

[ 👾 ] ➡️ 💾 ➡️ { 🎮🕹️ } Extra Stable-Baselines3 buffer classes. Reducing RL memory usage drastically with minimal overhead.

python reinforcement-learning memory buffer atari vizdoom on-policy off-policy experience-replay reinforcement-learning-environments stable-baselines3

Updated Dec 9, 2025
Python

srefsland / deep-rl-mcts

Star

On-policy MCTS combined with deep learning to train an actor-critic neural network that plays Hex (Con-tac-tix).

python hex reinforcement-learning tensorflow keras deep-reinforcement-learning mcts monte-carlo-tree-search actor-critic on-policy

Updated Nov 16, 2025
Python

wisnunugroho21 / reinforcement_learning_truly_ppo

Star

Deep Reinforcement Learning by using Truly Proximal Policy Optimization in Tensorflow 2 and Pytorch

reinforcement-learning deep-learning deep-reinforcement-learning pytorch ppo on-policy

Updated Nov 9, 2025
Python

ahmadsuleman / Precision-Autonomous-Parking-via-Reward-Augmented-Reinforcement-Learning

Star

Autonomous Parking with Deep Reinforcement Learning Custom MDP Development

simulation-environment unity3d deep-reinforcement-learning autonomous-driving markov-decision-processes on-policy off-policy ml-agents rl-environment autonomous-parking

Updated Jul 29, 2025

HridayM25 / PolicyGradients

Star

Implementation of different On-Policy and Off-Policy Policy Gradient Methods

policy-gradient multiagent-reinforcement-learning actorcritic on-policy off-policy-learning

Updated Sep 28, 2024
Jupyter Notebook

fardinabbasi / Tabulated_RL

Star

Containing a custom-built Reinforcement Learning environment and implementations of key RL algorithms like Q-learning and SARSA, tested in scenarios such as a drone navigation challenge and the Frozen Lake environment.

q-learning mdp grid-world sarsa markov-decision-processes value-iteration tree-backup on-policy off-policy

Updated Aug 9, 2024
Jupyter Notebook

MarcoMeter / episodic-transformer-memory-ppo

Star

Clean baseline implementation of PPO using an episodic TransformerXL memory

deep-reinforcement-learning pytorch transformer policy-gradient pomdp actor-critic proximal-policy-optimization ppo on-policy episodic-memory transformer-xl gtrxl trxl gated-transformer-xl memory-gym

Updated Jun 18, 2024
Python

MarcoMeter / recurrent-ppo-truncated-bptt

Star

Baseline implementation of recurrent PPO using truncated BPTT

deep-learning deep-reinforcement-learning pytorch recurrent-neural-networks lstm gru policy-gradient recurrence recurrent pomdp actor-critic truncated proximal-policy-optimization ppo on-policy bptt

Updated Apr 28, 2024
Jupyter Notebook

SPozder3 / RLFinanceProject

Star

Stock Portfolio Management using tabular and deep Q-learning methods - extension of FinRL repo

monte-carlo sarsa deep-q-network deep-q-learning on-policy n-step-sarsa

Updated Jan 8, 2024
Jupyter Notebook

TheUnsolvedDev / ReinforcementLearning

Star

Repository containing basic algorithm applied in python.

algorithm reinforcement-learning monte-carlo policy-evaluation policy-iteration bandit-algorithms on-policy off-policy

Updated Dec 3, 2023
Jupyter Notebook

OpenRL-Lab / RL_Tutorial

Star

Reinforcement Learning Tutorial (强化学习教程)

reinforcement-learning deep-reinforcement-learning tutorials pytorch dqn on-policy rlhf

Updated Sep 10, 2023

amirhosein-mesbah / Reinforcement_learning

Star

This repository contains the implementation of a wide variety of Reinforcement Learning Projects in different applications of Bandit Algorithms, MDPs, Distributed RL and Deep RL. These projects include university projects and projects implemented due to interest in Reinforcement Learning.

reinforcement-learning deep-reinforcement-learning q-learning gym mdp deeprl bandit-algorithms on-policy off-policy multi-agent-reinforcement-learning distributed-reinforcement-learning network-routing stablebaselines3

Updated Feb 18, 2023
Jupyter Notebook

BY571 / pytorch-vmpo

Star

PyTorch implementation of V-MPO

reinforcement-learning on-policy pytorch-implementation v-mpo vmpo

Updated Sep 29, 2022
Python

wisnunugroho21 / reinforcement_learning_v_mpo

Star

Deep Reinforcement Learning by using an on-policy adaptation of Maximum a Posteriori Policy Optimization (MPO)

reinforcement-learning deep-reinforcement-learning pytorch on-policy v-mpo

Updated Oct 23, 2021
Python

narjesno / Reinforcement-Learning

Star

This repository contains all of the Reinforcement Learning-related projects I've worked on. The projects are part of the graduate course at the University of Tehran.