Build software better, together

zengatso / orpo

🚀 Optimize preferences effectively with ORPO, a framework for monolithic preference optimization without a reference model.

data reinforcement-learning medical human-pose-estimation gpt lora privacy-preserving ppo dpo huggingface kto low-resolution-images model-averaging llm generative-ai rlhf qwen medicalgpt

Updated Dec 18, 2025
Python

boomzdig22-coder / rlm

Star

🛠️ Build and explore a minimal implementation of recursive language models with a REPL environment for OpenAI clients. Start hacking today!

python reinforcement-learning wifi radius aaa collaborative-filtering isp hotspot freeradius wifi-hotspot sac mujoco hotspot-wifi ppo a2c graph-neural-networks molecule-generation large-language-models

Updated Dec 18, 2025
Python

Vvalejandro / dspy-lean-prover-hint-clipping

Star

🔍 Enhance iterative theorem proving with DSPy by comparing full oracle vs. clipped hints using a mock Lean verifier in this streamlined setup.

experiment evaluation program-synthesis dataset rl lean clipping variance-reduction ppo tool-use policy-improvement offline-rl dspy leandojo

Updated Dec 18, 2025
Python

bensugursoy / Drone-Swarm-RL-airsim-sb3

Star

Training of Drone Swarms using StableBaselines3, PettingZoo, AirSim and UE4

reinforcement-learning drone unreal-engine drones swarm-intelligence airsim multiagent-reinforcement-learning supersuit ppo swarm-robotics marl droneswarm pettingzoo stablebaselines3

Updated Dec 18, 2025
Python

TianhongDai / reinforcement-learning-algorithms

Star

This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are still in progress)

algorithm deep-learning atari2600 flappy-bird deep-reinforcement-learning pytorch dqn ddpg sac actor-critic trpo dueling-dqn trust-region-policy-optimization proximal-policy-optimization ppo a2c soft-actor-critic

Updated Dec 18, 2025
Python

Daraan / ray_utilities

Star

ray & RLlib tools for unified code across different repositories. Experiments with dynamic hyperparameters

machine-learning reinforcement-learning hyperparameter-optimization ray hyperparameter-tuning gym-environment ppo rllib anyscale

Updated Dec 18, 2025
Python

berlin0308 / HydroSelf-CPG-RL

Star

Swimming eel robot with CPG + RL control

genesis fluid-simulation robot-learning ppo sim2real

Updated Dec 17, 2025
Python

biological-alignment-benchmarks / biological-alignment-gridworlds-benchmarks

Star

Safety challenges for AI agents' ability to learn and act in desired ways in relation to biologically and economically relevant aspects. The benchmarks are implemented in a gridworld-based environment. The environments are relatively simple, just as much complexity is added as is necessary to illustrate the relevant safety and performance aspects.

Updated Dec 17, 2025
Python

gabe00122 / jaxrl

Star

Partially Observable Multi-Agent RL with Transformers

reinforcement-learning deep-learning transformers flax ppo jax

Updated Dec 16, 2025
Python

agi-brain / xuance

Star

XuanCe: A Comprehensive and Unified Deep Reinforcement Learning Library

reinforcement-learning pytorch dqn atari ddpg mpe mujoco ppo magent starcraft2 a2c multi-agent-reinforcement-learning maddpg tensorflow2 google-research-football mindspore qmix mappo reinforcement-learning-library

Updated Dec 16, 2025
Python

Columbia-F1-Robotics / f1_robotics_racing_sim

Star

Vision-based autonomous racing system comparing PPO, DQN, and GAIL with custom reward shaping across CarRacing-v3 and TORCS simulators

reinforcement-learning computer-vision robotics dqn torcs deep-q-network f1 imitation-learning proximal-policy-optimization ppo torcs-env gail columbia-university reward-shaping autonomous-racing generative-adversarial-imitation-learning gymanasium

Updated Dec 15, 2025
Python

Jason-Hoford / inversus-reinforcement-learning

Star

INVERSUS-inspired game environment + PPO training pipeline for learning competitive tile-shooter strategies (dummy → self-play).

python reinforcement-learning ai deep-learning cnn pygame pytorch gym rl ppo self-play inversus

Updated Dec 15, 2025
Python

kengz / SLM-Lab

Star

Modular Deep Reinforcement Learning framework in PyTorch. Companion library of the book "Foundations of Deep Reinforcement Learning".

benchmark reinforcement-learning deep-reinforcement-learning pytorch dqn policy-gradient a3c sac ppo a2c

Updated Dec 17, 2025
Python

reiniscimurs / DRL-robot-navigation-IR-SIM

Star

Deep Reinforcement Learning for mobile robot navigation in IR-SIM simulation. Using DRL (SAC, TD3, PPO, DDPG) neural networks, a robot learns to navigate to a random goal point in a simulated environment while avoiding obstacles.

ddpg obstacle-avoidance sac drl ppo robot-navigation obstacle-avoidance-robot td3 ddpg-pytorch ppo-pytorch sac-pytorch drl-pytorch td3-pytorch ir-sim

Updated Dec 14, 2025
Python

ansh1113 / rl-locomotion-cbf

Star

Safe reinforcement learning for quadruped locomotion using Control Barrier Functions (CBF) - Zero falls, 99% safety rate, 90% speed retention with provable safety guarantees

python machine-learning reinforcement-learning robotics optimization safety locomotion quadruped cbf ppo control-barrier-functions safe-learning

Updated Dec 13, 2025
Python

ryanhlewis / oppo

Sponsor

Star

Code for Does Optimism Help PPO? Optimistic Gradient Updates for Multi-Agent Games and Exploration Benchmarks (OPPO Optimistic PPO)

rl ppo optimistic

Updated Dec 13, 2025
Python

Asmit-Kumar44648 / RL-Hedging-System

Star

Interactive RL-Based Derivative Hedging platform for options and portfolio simulation, featuring PPO, LSTM, and Transformer RL models, real-time market data, Greeks calculation, portfolio risk analysis, and PDF reporting. Built with Python, Streamlit, and Stable-Baselines3.

visualization python finance reinforcement-learning simulation lstm quantitative-finance algorithmic-trading options-trading ppo streamlit

Updated Dec 13, 2025
Python

ansh1113 / quadruped-ppo

Star

Quadruped robot locomotion using Proximal Policy Optimization (PPO) in PyBullet simulation - 30% fall reduction, 25% faster velocity

machine-learning reinforcement-learning deep-learning robotics simulation locomotion quadruped pybullet ppo stable-baselines3

Updated Dec 13, 2025
Python

Jaehyun-Jeong / 100LinesRL

Star

Clean RL algorithm implementations in under 100 lines each.

python machine-learning reinforcement-learning deep-learning pytorch dqn reinforcement-learning-algorithms rl educational sac gymnasium ppo td3 rl-algorithms minimal-implementation 100-line-code

Updated Dec 12, 2025
Python

omerjakoby / MARIO-RL-PPO

Star

This repository implements a Proximal Policy Optimization (PPO) agent that learns to play Super Mario Bros using TensorFlow/Keras and OpenAI Gym. Features CNNs for vision, Actor-Critic architecture, and parallel environments. Train your own Mario master or run a pre-trained one!

machine-learning tensorflow keras openai-gym cnn actor-critic mario-game proximal-policy-optimization ppo reinforcement-learning-agent ppo-algorithm

Updated Dec 12, 2025
Python

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

ppo

Here are 655 public repositories matching this topic...

zengatso / orpo

boomzdig22-coder / rlm

Vvalejandro / dspy-lean-prover-hint-clipping

bensugursoy / Drone-Swarm-RL-airsim-sb3

TianhongDai / reinforcement-learning-algorithms

Daraan / ray_utilities

berlin0308 / HydroSelf-CPG-RL

biological-alignment-benchmarks / biological-alignment-gridworlds-benchmarks

gabe00122 / jaxrl

agi-brain / xuance

Columbia-F1-Robotics / f1_robotics_racing_sim

Jason-Hoford / inversus-reinforcement-learning

kengz / SLM-Lab

reiniscimurs / DRL-robot-navigation-IR-SIM

ansh1113 / rl-locomotion-cbf

ryanhlewis / oppo

Asmit-Kumar44648 / RL-Hedging-System

ansh1113 / quadruped-ppo

Jaehyun-Jeong / 100LinesRL

omerjakoby / MARIO-RL-PPO

Improve this page

Add this topic to your repo