merged

2025-09-10 20:04:52 +00:00 · 2023-08-07 15:08:08 -04:00 · 2023-08-07 15:08:08 -04:00 · 3de777c645
commit 3de777c645
parent a160ce5623 1fdc88ee90
2 changed files with 2 additions and 2 deletions
--- a/server/text_generation_server/utils/gptq/quant_linear.py
+++ b/server/text_generation_server/utils/gptq/quant_linear.py
@ -263,7 +263,7 @@ class QuantLinear(nn.Module):
        self.groupsize = groupsize
        self.outfeatures = qweight.shape[1]
-        self.infeatures = qweight.shape[0] * 32 // 4
+        self.infeatures = qweight.shape[0] * 32 // bits
    @classmethod
    def new(cls, bits, groupsize, infeatures, outfeatures, bias):
--- a/server/text_generation_server/utils/layers.py
+++ b/server/text_generation_server/utils/layers.py
@ -543,7 +543,7 @@ try:
                or self._cos_cached.dtype != dtype
            ):
                if seqlen > self.max_position_embeddings:
-                    newbase = self.base * ((self.scaling_factor * seq_len / self.max_position_embeddings) - (self.scaling_factor - 1)) ** (self.dim / (self.dim - 2))
+                    newbase = self.base * ((self.scaling_factor * seqlen / self.max_position_embeddings) - (self.scaling_factor - 1)) ** (self.dim / (self.dim - 2))
                    self.inv_freq = _create_inv_freq(self.dim, newbase, self.inv_freq.device)
                self._seq_len_cached = seqlen
                t = torch.arange(seqlen, device=device, dtype=self.inv_freq.dtype)