Fix multi-GPU GPTQ finalizer overlap by Qubitium · Pull Request #2808 · ModelCloud/GPTQModel

Qubitium · 2026-04-22T15:31:53Z

For multi-gpu gptq quants, we need to sync finalizers.

Qubitium added 6 commits April 22, 2026 15:31

Fix multi-GPU GPTQ finalizer overlap

e088d95

Fix multi-GPU AWQ finalizer overlap

62efd31

Sync finalizers for multi-device quantization

085528b

Fix AWQ packed-mask scale search replay

2d44521

Precheck AWQ feature concat compatibility

22c4903

Deduplicate AWQ replay packing helpers

e84a02d

github-code-quality Bot found potential problems Apr 23, 2026

View reviewed changes

Comment thread gptqmodel/looper/awq_processor.py Fixed

Qubitium mentioned this pull request Apr 23, 2026

During the gptq quantization process, the gpu memory usage increases until the oom? #2805

Closed

Remove unused AWQ packing local

7195958

Qubitium merged commit 94c04f4 into main Apr 23, 2026
6 checks passed

Qubitium deleted the fix-issue-oom branch April 23, 2026 04:18

Provide feedback