quantization-aware-training

SOTA low-bit LLM quantization (INT8/FP8/INT4/FP4/NF4) & sparsity; leading model compression techniques on TensorFlow, PyTorch, and ONNX Runtime

low-precision pruning sparsity auto-tuning knowledge-distillation quantization quantization-aware-training post-training-quantization smoothquant large-language-models gptq int8

Python 2.37 k

1 天前

666DZY666 / micronet

micronet, a model compression and deploy lib. compression: 1、quantization: quantization-aware-training(QAT), High-Bit(>2b)(DoReFa/Quantization and Training of Neural Networks for Efficient Integer-Ari...

翻译 - 基于pytorch的模型压缩（1，量化：8/4 / 2bits（dorefa），三进制/二进制值（twn / bnn / xnornet）； 2，修剪：常规，常规和组卷积通道修剪； 3，组卷积结构； 4，特征（A）的二进制值的分批归一化折叠）

quantization pruning dorefa twn bnn xnor-net PyTorch model-compression group-convolution convolutional-networks quantization-aware-training post-training-quantization tensorrt onnx

Python 2.24 k

4 年前

openvinotoolkit / nncf

#自然语言处理#Neural Network Compression Framework for enhanced OpenVINO™ inference

quantization pruning sparsity quantization-aware-training compression semantic-segmentation object-detection classification 自然语言处理 bert transformers PyTorch Tensorflow onnx openvino 深度学习 genai 大语言模型

Python 997

2 天前

alibaba / TinyNeuralNetwork

#计算机科学#TinyNeuralNetwork is an efficient and easy-to-use deep learning model compression framework.

PyTorch 深度学习 model-compression pruning model-converter quantization-aware-training 深度神经网络 post-training-quantization

Python 822

1 个月前

SpursLipu / YOLOv3v4-ModelCompression-MultidatasetTraining-Multibackbone

YOLO ModelCompression MultidatasetTraining

yolo mobilenetv3 object-detection pruning quantization-aware-training

Python 444

3 年前

fastmachinelearning / hls4ml-tutorial

#计算机科学#Tutorial notebooks for hls4ml

fpga 机器学习 pruning quantization-aware-training 教程

Jupyter Notebook 334

10 天前

megvii-research / Sparsebit

#计算机科学#A model compression and acceleration toolbox based on pytorch.

深度学习 post-training-quantization pruning quantization quantization-aware-training sparse tensorrt

Python 331

1 年前

Beomi / BitNet-Transformers

#大语言模型#0️⃣1️⃣🤗 BitNet-Transformers: Huggingface Transformers Implementation of "BitNet: Scaling 1-bit Transformers for Large Language Models" in pytorch with Llama(2) Architecture

大语言模型 quantization quantization-aware-training transformers

Python 295

1 年前