TensorRT Model Optimizer

Getting Started

Overview
Installation
Quick Start: PTQ - PyTorch
Quick Start: PTQ - ONNX
Quick Start: PTQ - Windows
Quick Start: QAT
Quick Start: Pruning
Quick Start: Distillation
Quick Start: Speculative Decoding
Quick Start: Sparsity

Guides

Support Matrix
Quantization
Saving & Restoring
Pruning
Distillation
Speculative Decoding
Sparsity
NAS
AutoCast (ONNX)

Deployment

TensorRT-LLM
DirectML
Unified HuggingFace Checkpoint

Examples

All GitHub Examples

Reference

Changelog
modelopt API
- deploy
- onnx
  - autocast
  - llm_export_utils
  - logging_config
  - op_types
  - quantization
  - trt_utils
  - utils
- torch

Support

Contact us
FAQs

TensorRT Model Optimizer

modelopt API
onnx
quantization
extensions
View page source

extensions

Module to load C++ extensions.

Previous Next

© Copyright 2023-2025, NVIDIA Corporation.

Built with Sphinx using a theme provided by Read the Docs.