安装ModelOpt-Windows作为独立工具包

TensorRT 模型优化器 - Windows（ModelOpt-Windows）可以作为一个独立的工具包安装，用于量化大型语言模型（LLMs）。以下是安装步骤：

1. 设置先决条件

在使用ModelOpt-Windows之前，必须安装以下组件：

NVIDIA GPU 和图形驱动程序

Python 版本 >= 3.10 且 < 3.13

Visual Studio 2022 / MSVC / C/C++ 构建工具

根据需要更新PATH环境变量以满足上述先决条件。

2. 设置虚拟环境（可选但推荐）

建议使用虚拟环境来管理Python依赖项。诸如conda或Python内置的venv模块等工具可以帮助创建和激活虚拟环境。以下是使用Python的venv模块的示例步骤：

$ mkdir myEnv
$ python -m venv .\myEnv
$ .\myEnv\Scripts\activate

在新创建的虚拟环境中，不会预装任何所需的包（例如，onnx、onnxruntime、onnxruntime-directml、onnxruntime-gpu、nvidia-modelopt）。

3. 安装ModelOpt-Windows Wheel

要安装ModelOpt-Windows轮子，请运行以下命令：

pip install "nvidia-modelopt[onnx]" --extra-index-url https://pypi.nvidia.com

此命令安装ModelOpt-Windows及其ONNX模块，以及onnxruntime-directml（v1.20.0）包。如果ModelOpt-Windows在没有额外参数的情况下安装，则只会安装最基本的依赖项，而不包括相关模块和依赖项。

4. 设置ONNX Runtime (ORT) 进行校准

ONNX 训练后量化（PTQ）过程涉及使用用户提供的输入运行基础模型，这一过程称为校准。用户提供的模型输入被称为校准数据。为了执行校准，必须使用合适的 ONNX 执行提供程序（EP）运行基础模型，例如 DmlExecutionProvider（DirectML EP）或 CudaExecutionProvider（CUDA EP）。每个 EP 都有不同的 ONNX Runtime 包：

onnxruntime-directml 提供了 DirectML EP。
onnxruntime-gpu 提供了 CUDA EP。
onnxruntime 提供了 CPU EP。

默认情况下，ModelOpt-Windows 安装 onnxruntime-directml 并使用 DirectML EP (v1.20.0) 进行校准。不需要额外的依赖项。如果您更倾向于使用 CUDA EP 进行校准，请卸载现有的 onnxruntime-directml 包并安装 onnxruntime-gpu 包，这需要 CUDA 和 cuDNN 依赖项：

卸载 onnxruntime-directml:
```
pip uninstall onnxruntime-directml
```
Install CUDA and cuDNN:
- 对于ONNX Runtime GPU包，您需要安装适当版本的CUDA和cuDNN。请参考CUDA执行提供者要求以获取兼容的CUDA和cuDNN版本。
安装 ONNX Runtime GPU (CUDA 12.x):
```
pip install onnxruntime-gpu
```
- 自 v1.19.0 起，onnxruntime-gpu 的默认 CUDA 版本为 12.x。

5. 设置用于量化的GPU加速工具

ModelOpt-Windows 在 ONNX 量化过程中使用 cupy 工具进行 GPU 加速。针对 CUDA 11.x 和 CUDA 12.x 有不同的 cupy 包。安装适合您 CUDA 设置的 cupy 版本。有关安装和故障排除，请参阅 cupy 文档。

6. 验证安装

Ensure the following steps are verified:

任务管理器：检查GPU是否出现在任务管理器中，这表明图形驱动程序已安装并正常运行。
Python 解释器：打开命令行并输入 python。Python 解释器应该会启动，显示 Python 版本。
Onnxruntime Package: Ensure that one of the following is installed:
- onnxruntime-directml (DirectML EP)
- onnxruntime-gpu (CUDA EP)
- onnxruntime (CPU EP)
环境变量: 对于使用CUDA依赖项的工作流程（例如，基于CUDA EP的校准），请确保正确设置环境变量，如CUDA_PATH、CUDA_V12_4或CUDA_V11_8等。如果更新或新创建了任何环境变量，请重新打开命令提示符。
ModelOpt-Windows 导入检查: 运行以下命令以确保安装成功:
python -c "import modelopt.onnx.quantization"

如果在安装过程中遇到任何困难，请参考ModelOpt-Windows常见问题解答以获取可能的解决方案和额外指导。