reinforcement-learning-from-human-feedback

An Easy-to-use, Scalable and High-performance RLHF Framework (70B+ PPO Full Tuning & Iterative DPO & LoRA & RingAttention & RFT)

transformers vllm large-language-models raylib reinforcement-learning-from-human-feedback reinforcement-learning openai-o1 proximal-policy-optimization

Python 6.22 k

14 小时前

PKU-Alignment / safe-rlhf

#数据仓库#Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

ai-safety alpaca 数据集 deepspeed large-language-models llama 大语言模型 llms reinforcement-learning reinforcement-learning-from-human-feedback rlhf transformers vicuna safety gpt transformer beaver

Python 1.45 k

10 个月前

tatsu-lab / alpaca_farm

#自然语言处理#A simulation framework for RLHF and alternatives. Develop your RLHF method without collecting human data.

深度学习 instruction-following large-language-models reinforcement-learning-from-human-feedback 自然语言处理

Python 805

9 个月前

openpsi-project / ReaLHF

#大语言模型#Super-Efficient RLHF Training of LLMs with Parameter Reallocation

大语言模型 llm-training reinforcement-learning-from-human-feedback reinforcement-learning distributed-systems distributed-computing large-language-models llm-framework deepspeed transformers

Python 273

3 个月前

nlp-uoregon / Okapi

#自然语言处理#Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback

bloom 聊天机器人 dataset instruction-tuning language-model large-language-models multilingual 自然语言处理 question-answering reinforcement-learning reinforcement-learning-from-human-feedback rlhf llama

Python 94

2 年前

tlc4418 / llm_optimization

#计算机科学#A repo for RLHF training and BoN over LLMs, with support for reward model ensembles.

深度学习 large-language-models reinforcement-learning-from-human-feedback

Python 42

3 个月前

liushunyu / awesome-direct-preference-optimization

#大语言模型#A Survey of Direct Preference Optimization (DPO)

alignment large-language-model large-language-models 大语言模型 llms reinforcement-learning-from-human-feedback dpo 代码审查 survey

1 个月前

CJReinforce / RIME_ICML2024

#计算机科学#Official code for ICML 2024 paper, "RIME: Robust Preference-based Reinforcement Learning with Noisy Preferences" (ICML 2024 Spotlight)

人工智能深度学习 reinforcement-learning reinforcement-learning-from-human-feedback locomotion manipulation Robotics

Python 28

6 个月前

clam004 / minichatgpt

#自然语言处理#annotated tutorial of the huggingface TRL repo for reinforcement learning from human feedback connecting equations from PPO and GAE to the lines of code in the pytorch implementation

深度学习 deep-reinforcement-learning fine-tuning language-model large-language-models 自然语言处理 PyTorch reinforcement-learning transformers reinforcement-learning-from-human-feedback

Jupyter Notebook 18

9 天前

XplainMind / LLMindCraft

Shaping Language Models with Cognitive Insights

Docker instruct-tuning large-language-models pretraining reinforcement-learning-from-human-feedback deepspeed transformers

Python 13

1 年前

ymetz / rlhfblender

RLHF-Blender: A Configurable Interactive Interface for Learning from Diverse Human Feedback

experimentation Python React reinforcement-learning reinforcement-learning-from-human-feedback

Python 12

10 天前

liushunyu / Ask-AC

[TSMC] Ask-AC: An Initiative Advisor-in-the-Loop Actor-Critic Framework

reinforcement-learning reinforcement-learning-from-human-feedback

Python 8

10 个月前

flint-xf-fan / Federated-RLHF

[AAMAS 2025] Privacy-preserving and Personalized RLHF, with convergence guarantees. The Code contains experiments for training multiple instances of GPT-2 for personalized sentiment aligned text gener...

llms reinforcement-learning-from-human-feedback rft rlhf

Python 6

9 天前

rosinality / halite

Acceleration framework for Human Alignment Learning

evaluation-framework inference large-language-models proximal-policy-optimization reinforcement-learning reinforcement-learning-from-human-feedback transformers

Python 6

2 个月前

SJ9VRF / Reinforcement-Learning-for-Human-Feedback-RLHF

This repository contains the implementation of a Reinforcement Learning with Human Feedback (RLHF) system using custom datasets. The project utilizes the trlX library for training a preference model t...

language-model llms reinforcement-learning-from-human-feedback rlhf

Python 3

8 个月前