Fixing GPTQ exllama kernel usage.

2025-09-10 20:04:52 +00:00 · 2023-10-04 15:50:56 +00:00 · 2023-10-04 15:50:56 +00:00 · 2d4ae09074
commit 2d4ae09074
parent 6df43da0a4
1 changed files with 3 additions and 1 deletions
--- a/server/text_generation_server/utils/weights.py
+++ b/server/text_generation_server/utils/weights.py
@ -212,7 +212,9 @@ class Weights:
                g_idx = None

            bits, groupsize = self._get_gptq_params()
-            weight = (qweight, qzeros, scales, g_idx, bits, groupsize, False)
+            from text_generation_server.utils.layers import HAS_EXLLAMA
+            use_exllama = bits==4  and HAS_EXLLAMA and quantize == "gptq"
+            weight = (qweight, qzeros, scales, g_idx, bits, groupsize, use_exllama)
        else:
            w = [self.get_sharded(f"{p}.weight", dim=0) for p in prefixes]
            weight = torch.cat(w, dim=dim)