support bits different than 4

2025-06-16 22:32:07 +00:00 · 2023-07-12 16:19:25 +00:00 · 2023-07-12 16:19:25 +00:00 · f90c61a340
commit f90c61a340
parent 67d687609b
1 changed files with 1 additions and 1 deletions
--- a/server/text_generation_server/utils/layers.py
+++ b/server/text_generation_server/utils/layers.py
@ -151,7 +151,7 @@ def get_linear(weight, bias, quantize):
                f"The passed weight is not `gptq` compatible, loader needs to be updated."
            )
-        if use_triton_kernel:
+        if use_triton_kernel or bits != 4:
            linear = QuantLinear(
                qweight,
                qzeros,