NVIDIA
diff --git a/‎modelopt/onnx/quantization/autotune/__init__.py‎
Lines changed: 2 additions & 51 deletions b/‎modelopt/onnx/quantization/autotune/__init__.py‎
Lines changed: 2 additions & 51 deletions
@@ -1,4 +1,4 @@
-# SPDX-FileCopyrightText: Copyright (c) 2024 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+# SPDX-FileCopyrightText: Copyright (c) 2026 NVIDIA CORPORATION & AFFILIATES. All rights reserved.
 # SPDX-License-Identifier: Apache-2.0
 #
 # Licensed under the Apache License, Version 2.0 (the "License");
@@ -19,23 +19,6 @@
 in ONNX computation graphs to minimize TensorRT inference latency. It uses pattern-based
 region analysis to efficiently explore and optimize Q/DQ insertion strategies.
 
-**Key Features:**
-
-- **Automated Region Discovery**: Hierarchical decomposition of computation graphs into
-  LEAF and COMPOSITE regions with automatic pattern identification
-
-- **Pattern-Based Optimization**: Groups structurally-similar regions and optimizes them
-  together, making the process efficient and consistent
-
-- **TensorRT Performance Measurement**: Direct integration with TensorRT Python API for
-  accurate latency profiling of each Q/DQ configuration
-
-- **State Management**: Checkpoint/resume capability for long-running optimizations with
-  incremental state saving after each region
-
-- **Pattern Cache**: Warm-start optimization using learned schemes from previous runs,
-  enabling transfer learning across models
-
 **Core Components:**
 
 Autotuner Classes:
@@ -64,26 +47,6 @@
     - TensorRTPyBenchmark: Benchmark using TensorRT Python API (recommended)
     - TrtExecBenchmark: Benchmark using trtexec command-line tool (legacy)
 
-**Quick Start:**
-
-    >>> from modelopt.onnx.quantization.autotune import QDQAutotuner, Config
-    >>> import onnx
-    >>> # Load model and initialize autotuner
-    >>> model = onnx.load("model.onnx")
-    >>> autotuner = QDQAutotuner(model)
-    >>> # Configure autotuning parameters
-    >>> config = Config(default_quant_type="int8")
-    >>> autotuner.initialize(config)
-    >>> # Generate and test Q/DQ schemes
-    >>> # (see workflows.region_pattern_autotuning_workflow for complete example)
-
-**Command-Line Interface:**
-
-    The package can be run directly as a module:
-
-    $ python -m modelopt.onnx.quantization.autotune --model model.onnx --output ./output
-    $ python -m modelopt.onnx.quantization.autotune --model model.onnx --quant-type fp8
-
 **See Also:**
 
     - workflows.region_pattern_autotuning_workflow: Complete end-to-end optimization
@@ -101,44 +64,32 @@
     PatternCache,
     PatternSchemes,
     Region,
-    RegionError,
     RegionType,
 )
-
-# Insertion points (from dedicated module)
 from .insertion_points import (
     ChildRegionInputInsertionPoint,
     NodeInputInsertionPoint,
     RegionOutputInsertionPoint,
     ResolvedInsertionPoint,
 )
-
-# Pattern analysis
 from .region_pattern import RegionPattern
-
-# Region search
 from .region_search import CombinedRegionSearch
 
-# Public API
 __all__ = [
-    # Exceptions
     "AutotunerError",
     "AutotunerNotInitializedError",
     "ChildRegionInputInsertionPoint",
     "CombinedRegionSearch",
-    # Configuration and state
     "Config",
-    # Q/DQ insertion
     "InsertionScheme",
     "InvalidSchemeError",
     "NodeInputInsertionPoint",
-    "ResolvedInsertionPoint",
     "PatternCache",
     "PatternSchemes",
-    # Region classes
     "Region",
     "RegionError",
     "RegionOutputInsertionPoint",
     "RegionPattern",
     "RegionType",
+    "ResolvedInsertionPoint",
 ]