TensorRT Model Optimizer

Getting Started

Overview
Installation
Quick Start: PTQ - PyTorch
Quick Start: PTQ - ONNX
Quick Start: PTQ - Windows
Quick Start: QAT
Quick Start: Pruning
Quick Start: Distillation
Quick Start: Speculative Decoding
Quick Start: Sparsity

Guides

Support Matrix
Quantization
Saving & Restoring
Pruning
Distillation
Speculative Decoding
Sparsity
NAS
AutoCast (ONNX)

Deployment

TensorRT-LLM
DirectML
Unified HuggingFace Checkpoint

Examples

All GitHub Examples

Reference

Changelog
modelopt API

Support

Contact us
FAQs

TensorRT Model Optimizer

Welcome to Model Optimizer (ModelOpt) documentation!
View page source

Welcome to Model Optimizer (ModelOpt) documentation!

Getting Started

Overview
Installation
Quick Start: PTQ - PyTorch
Quick Start: PTQ - ONNX
Quick Start: PTQ - Windows
Quick Start: QAT
Quick Start: Pruning
Quick Start: Distillation
Quick Start: Speculative Decoding
Quick Start: Sparsity

Guides

Support Matrix
Quantization
Saving & Restoring
Pruning
Distillation
Speculative Decoding
Sparsity
NAS
AutoCast (ONNX)

Deployment

TensorRT-LLM
DirectML
Unified HuggingFace Checkpoint

Examples

All GitHub Examples

Reference

Changelog
modelopt API

Support

Contact us
FAQs

Next

© Copyright 2023-2025, NVIDIA Corporation.

Built with Sphinx using a theme provided by Read the Docs.