proximal-policy-optimization

MorvanZhou / Reinforcement-learning-with-tensorflow

#计算机科学#Simple Reinforcement learning tutorials, 莫烦Python 中文AI教学

翻译 - 简单钢筋学习教程

reinforcement-learning 教程 q-learning sarsa sarsa-lambda deep-q-network a3c ddpg policy-gradient dqn double-dqn dueling-dqn deep-deterministic-policy-gradient actor-critic Tensorflow proximal-policy-optimization ppo 机器学习

Python 9.15 k

1 年前

vwxyzjn / cleanrl

#计算机科学#High-quality single file implementation of Deep Reinforcement Learning algorithms with research-friendly features (PPO, DQN, C51, DDPG, TD3, SAC, PPG)

wandb reinforcement-learning PyTorch Python gym 机器学习 deep-reinforcement-learning 深度学习 atari ale a2c proximal-policy-optimization ppo advantage-actor-critic actor-critic phasic-policy-gradient

Python 6.76 k

4 天前

OpenRLHF / OpenRLHF

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & RingAttention & RFT)

transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning openai-o1 proximal-policy-optimization

Python 6.21 k

15 小时前

ikostrikov / pytorch-a2c-ppo-acktr-gail

#计算机科学#PyTorch implementation of Advantage Actor Critic (A2C), Proximal Policy Optimization (PPO), Scalable trust-region method for deep reinforcement learning using Kronecker-factored approximation (ACKTR) ...

PyTorch reinforcement-learning 深度学习 deep-reinforcement-learning actor-critic advantage-actor-critic a2c ppo proximal-policy-optimization hessian atari mujoco roboschool continuous-control ale

Python 3.73 k

3 年前

nikhilbarhate99 / PPO-PyTorch

#计算机科学#Minimal implementation of clipped objective Proximal Policy Optimization (PPO) in PyTorch

pytorch-implmention PyTorch pytorch-tutorial proximal-policy-optimization reinforcement-learning-algorithms deep-reinforcement-learning ppo policy-gradient 深度学习 reinforcement-learning

Python 1.98 k

9 个月前

Khrylx / PyTorch-RL

PyTorch implementation of Deep Reinforcement Learning: Policy Gradient methods (TRPO, PPO, A2C) and Generative Adversarial Imitation Learning (GAIL). Fast Fisher vector product TRPO.

reinforcement-learning policy-gradient pytorch-rl proximal-policy-optimization ppo PyTorch a2c Generative Adversarial Network deep-reinforcement-learning

Python 1.19 k

4 年前

vietnh1009 / Super-mario-bros-PPO-pytorch

#计算机科学#Proximal Policy Optimization (PPO) algorithm for Super Mario Bros

翻译 - 超级马里奥兄弟的近距离策略优化（PPO）算法

reinforcement-learning ppo ppo2 PyTorch gym Python 深度学习 super-mario-bros mario 人工智能 proximal-policy-optimization openai openai-gym

Python 1.15 k

4 年前

TianhongDai / reinforcement-learning-algorithms

#算法刷题#This repository contains most of pytorch implementation based classic deep reinforcement learning algorithms, including - DQN, DDQN, Dueling Network, DDPG, SAC, A2C, PPO, TRPO. (More algorithms are st...