smoothquant · GitHub Topics

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

low-precision pruning sparsity auto-tuning knowledge-distillation quantization quantization-aware-training post-training-quantization smoothquant large-language-models gptq int8

Python 2.37 k

1 天前

ModelTC / llmc

#大语言模型#[EMNLP 2024 Industry Track] This is the official PyTorch implementation of "LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit".

部署大语言模型 pruning quantization 工具 benchmark evaluation large-language-models internlm2 llama3 smoothquant post-training-quantization mixtral vllm

Python 452

3 天前