Adding scratch space.

2025-09-11 04:14:52 +00:00 · 2023-10-30 16:33:58 +00:00 · 2023-10-30 16:33:58 +00:00 · fb64ce1040
commit fb64ce1040
parent 024bdb0142
1 changed files with 2 additions and 2 deletions
--- a/server/text_generation_server/utils/gptq/exllamav2.py
+++ b/server/text_generation_server/utils/gptq/exllamav2.py
@ -143,7 +143,7 @@ class QuantLinear(nn.Module):
        #     self.bias = None
    # def post_init(self, temp_dq):
-        temp_dq = ExLlamaV2DeviceTensors(self.qweight.device.index , self.temp_dq_size())
+        temp_dq = ExLlamaV2DeviceTensors(self.qweight.device.index , self.temp_dq_size() + self.temp_fwd_size(4096, 8))
        assert self.qweight.device.type == "cuda"
        assert self.qweight.device.index is not None
        self.q_tensors = {
@ -152,7 +152,7 @@ class QuantLinear(nn.Module):
            "scales":self.scales,
            "g_idx":self.g_idx
        }
-        temp_dq = temp_dq.get_scratch_slice(self.temp_dq_size())
+        temp_dq = temp_dq.get_scratch_slice(self.temp_dq_size() + self.temp_fwd_size(4096, 8))
        self.q_handle = ext_make_q_matrix(
            self.q_tensors, temp_dq
        )