ai-safety · GitHub Topics

jphall663 / awesome-machine-learning-interpretability

#Awesome#A curated list of awesome responsible machine learning resources.

fairness xai interpretability transparency 机器学习数据科学 Python R Awesome Lists machine-learning-interpretability interpretable-machine-learning interpretable-ml interpretable-ai explainable-ml ai-safety privacy-enhancing-technologies privacy-preserving-machine-learning

3.76 k

4 天前

PKU-Alignment / safe-rlhf

#数据仓库#Safe RLHF: Constrained Value Alignment via Safe Reinforcement Learning from Human Feedback

ai-safety alpaca 数据集 deepspeed large-language-models llama 大语言模型 llms reinforcement-learning reinforcement-learning-from-human-feedback rlhf transformers vicuna safety gpt transformer beaver

Python 1.45 k

10 个月前

OpenLMLab / MOSS-RLHF

Secrets of RLHF in Large Language Models Part I: PPO

rlhf alignment ai-safety

Python 1.35 k

1 年前

JohnSnowLabs / langtest

#自然语言处理#Deliver safe & effective language models

benchmarks large-language-models ml-safety ml-testing mlops 自然语言处理 responsible-ai ai-safety 人工智能 benchmark-framework 大语言模型

Python 516

4 天前

tigerlab-ai / tiger

#大语言模型#Open Source LLM toolkit to build trustworthy LLM applications. TigerArmor (AI safety), TigerRAG (embedding, RAG), TigerTune (fine-tuning)

classification fine-tuning 大语言模型 llm-training rag ai-safety data-augmentation large-language-models

Jupyter Notebook 395

1 年前

agencyenterprise / PromptInject

#计算机科学#PromptInject is a framework that assembles prompts in a modular fashion to provide a quantitative analysis of the robustness of LLMs to adversarial prompt attacks. 🏆 Best Paper Awards @ NeurIPS ML Sa...

ai-safety language-models ml-safety agi ai-alignment adversarial-attacks gpt-3 large-language-models 机器学习 chain-of-thought prompt-engineering

Python 357

1 年前

hendrycks / ethics

Aligning AI With Shared Human Values (ICLR 2021)

ai-safety gpt-3 ml-safety

Python 283

2 年前

ShengranHu / Thought-Cloning

#计算机科学#[NeurIPS '23 Spotlight] Thought Cloning: Learning to Think while Acting by Imitating Human Thinking

ai-safety 人工智能深度学习 imitation-learning reinforcement-learning PyTorch

Python 263

9 个月前

normster / llm_rules

RuLES: a benchmark for evaluating rule-following in language models

ai-security gpt-4 ai-safety

Python 220

2 个月前

Jiaqi-Chen-00 / ImBD

[AAAI 2025 oral] Official repository of Imitate Before Detect: Aligning Machine Stylistic Preference for Machine-Revised Text Detection

ai-safety

Python 201

10 天前

WindVChen / DiffAttack

An unrestricted attack based on diffusion models that can achieve both good transferability and imperceptibility.

ai-safety diffusion-models

Python 200

6 个月前

cvs-health / langfair

#大语言模型#LangFair is a Python library for conducting use-case level LLM bias and fairness assessments

人工智能 bias bias-detection fairness fairness-ai fairness-ml fairness-testing large-language-models 大语言模型 responsible-ai Python ai-safety llm-evaluation llm-evaluation-framework llm-evaluation-metrics

Python 197

1 个月前

tomekkorbak / pretraining-with-human-feedback

Code accompanying the paper Pretraining Language Models with Human Preferences

ai-alignment ai-safety gpt language-models pretraining reinforcement-learning rlhf

Python 180

1 年前

Giskard-AI / awesome-ai-safety

#自然语言处理#📚 A curated list of papers & technical articles on AI Quality & Safety

人工智能 ai-alignment ai-safety 大语言模型 llmops 机器学习 mlops 自然语言处理 ml-testing model-validation 机器视觉 Awesome Lists ml-safety robustness

175

1 年前

lets-make-safe-ai / make-safe-ai

How to Make Safe AI? Let's Discuss! 💡|💬|🙌|📚

agi 人工智能 ai-safety artificial-general-intelligence ai-alignment

168

2 年前

phantasmlabs / phantasm

#大语言模型#Toolkits to create a human-in-the-loop approval layer to monitor and guide AI agents workflow in real-time.

ai-agents ai-safety ai-security automation-tools control-flow dashboard human-computer-interaction human-in-the-loop 大语言模型 llm-security llmops 监控 Open Source Rust

Svelte 162

5 个月前

PKU-YuanGroup / Hallucination-Attack

#自然语言处理#Attack to induce LLMs within hallucinations

adversarial-attacks 大语言模型 hallucinations 机器学习自然语言处理 ai-safety 深度学习

Python 155

1 年前

ryoungj / ToolEmu

[ICLR'24 Spotlight] A language model (LM)-based emulation framework for identifying the risks of LM agents with tool use

agent ai-safety language-model large-language-models prompt-engineering

Python 139

1 年前

PKU-Alignment / beavertails

#数据仓库#BeaverTails is a collection of datasets designed to facilitate research on safety alignment in large language models (LLMs).

ai-safety human-feedback language-model large-language-model 大语言模型 llms rlhf safety beaver 数据集 gpt llama

Makefile 133

1 年前

LetterLiGo / SafeGen_CCS2024

[CCS'24] SafeGen: Mitigating Unsafe Content Generation in Text-to-Image Models

ai-safety ai-security generative-ai text-to-image

Python 129

12 天前