Transformers

QDQBERT

该模型目前处于维护模式，我们不接受任何更改其代码的新PR。如果您在运行此模型时遇到任何问题，请重新安装支持此模型的最后一个版本：v4.40.2。您可以通过运行以下命令来执行此操作：pip install -U transformers==4.40.2。

概述

QDQBERT模型可以参考深度学习推理中的整数量化：原理与实证评估，作者为Hao Wu、Patrick Judd、Xiaojie Zhang、Mikhail Isaev和Paulius Micikevicius。

论文的摘要如下：

量化技术可以通过利用高吞吐量的整数指令来减少深度神经网络的大小，并提高推理延迟和吞吐量。在本文中，我们回顾了量化参数的数学方面，并评估了它们在不同应用领域的广泛神经网络模型中的选择，包括视觉、语音和语言。我们专注于那些适合通过具有高吞吐量整数数学管道的处理器加速的量化技术。我们还提出了一个8位量化的工作流程，能够在所有研究的网络中保持精度在浮点基线的1%以内，包括那些更难量化的模型，如MobileNets和BERT-large。

该模型由shangz贡献。

使用提示

QDQBERT模型在BERT模型中添加了伪量化操作（QuantizeLinear/DequantizeLinear操作对），用于（i）线性层输入和权重，（ii）矩阵乘法输入，（iii）残差加法输入。
QDQBERT 需要依赖 Pytorch Quantization Toolkit。要安装 pip install pytorch-quantization --extra-index-url https://pypi.ngc.nvidia.com
QDQBERT模型可以从HuggingFace BERT模型的任何检查点加载（例如google-bert/bert-base-uncased），并执行量化感知训练/训练后量化。
使用QDQBERT模型执行量化感知训练和训练后量化的完整示例可以在transformers/examples/research_projects/quantization-qdqbert/找到。

设置默认量化器

QDQBERT 模型通过 TensorQuantizer 在 BERT 中添加了伪量化操作（QuantizeLinear/DequantizeLinear 操作对），该模块位于 Pytorch Quantization Toolkit 中。TensorQuantizer 是用于量化张量的模块，QuantDescriptor 定义了张量应如何量化。更多详细信息请参考 Pytorch Quantization Toolkit 用户指南。

在创建QDQBERT模型之前，必须设置默认的QuantDescriptor，以定义默认的张量量化器。

示例：

>>> import pytorch_quantization.nn as quant_nn
>>> from pytorch_quantization.tensor_quant import QuantDescriptor

>>> # The default tensor quantizer is set to use Max calibration method
>>> input_desc = QuantDescriptor(num_bits=8, calib_method="max")
>>> # The default tensor quantizer is set to be per-channel quantization for weights
>>> weight_desc = QuantDescriptor(num_bits=8, axis=((0,)))
>>> quant_nn.QuantLinear.set_default_quant_desc_input(input_desc)
>>> quant_nn.QuantLinear.set_default_quant_desc_weight(weight_desc)

校准

校准是将数据样本传递给量化器并决定张量的最佳缩放因子的术语。在设置好张量量化器后，可以使用以下示例来校准模型：

>>> # Find the TensorQuantizer and enable calibration
>>> for name, module in model.named_modules():
...     if name.endswith("_input_quantizer"):
...         module.enable_calib()
...         module.disable_quant()  # Use full precision data to calibrate

>>> # Feeding data samples
>>> model(x)
>>> # ...

>>> # Finalize calibration
>>> for name, module in model.named_modules():
...     if name.endswith("_input_quantizer"):
...         module.load_calib_amax()
...         module.enable_quant()

>>> # If running on GPU, it needs to call .cuda() again because new tensors will be created by calibration process
>>> model.cuda()

>>> # Keep running the quantized model
>>> # ...

导出到ONNX

导出到ONNX的目标是通过TensorRT部署推理。伪量化将被分解为一对QuantizeLinear/DequantizeLinear ONNX操作。在将TensorQuantizer的静态成员设置为使用Pytorch自己的伪量化函数后，伪量化模型可以导出到ONNX，按照torch.onnx中的说明进行操作。示例：

>>> from pytorch_quantization.nn import TensorQuantizer

>>> TensorQuantizer.use_fb_fake_quant = True

>>> # Load the calibrated model
>>> ...
>>> # ONNX export
>>> torch.onnx.export(...)

Transformers

QDQBERT

概述

使用提示

设置默认量化器

校准

导出到ONNX

资源

QDQBertConfig

类 transformers.QDQBertConfig

QDQBertModel

类 transformers.QDQBertModel

前进

QDQBertLMHeadModel

类 transformers.QDQBertLMHeadModel

前进

QDQBertForMaskedLM

类 transformers.QDQBertForMaskedLM

前进

QDQBertForSequenceClassification

类 transformers.QDQBertForSequenceClassification

前进

QDQBertForNextSentencePrediction

类 transformers.QDQBertForNextSentencePrediction

前进

QDQBertForMultipleChoice

类 transformers.QDQBertForMultipleChoice

前进

QDQBertForTokenClassification

类 transformers.QDQBertForTokenClassification

前进

QDQBertForQuestionAnswering

类 transformers.QDQBertForQuestionAnswering

前进