Give escape hatch to not use exllama kernels even if available.

2025-09-10 11:54:52 +00:00 · 2023-07-20 17:47:09 +00:00 · 2023-07-20 17:47:09 +00:00 · 7faef69015
commit 7faef69015
parent 8cf7c89910
1 changed files with 3 additions and 0 deletions
--- a/server/text_generation_server/utils/layers.py
+++ b/server/text_generation_server/utils/layers.py
@ -1,3 +1,4 @@
+import os
 import torch
 import torch.distributed

@ -17,6 +18,8 @@ from accelerate import init_empty_weights

 from text_generation_server.utils.gptq.quant_linear import QuantLinear
 HAS_EXLLAMA = True
+if os.getenv("DISABLE_EXLLAMA") == "True":
+    HAS_EXLLAMA=False
 try:
    from text_generation_server.utils.gptq.exllama import Ex4bitLinear
 except ImportError: