fix: superseed gptq changes with main

2025-06-15 22:02:05 +00:00 · 2024-08-12 15:18:02 +00:00 · 2024-08-12 15:18:02 +00:00 · 7e773b0f20
commit 7e773b0f20
parent 3f12750a18
1 changed files with 0 additions and 69 deletions
--- a/server/text_generation_server/layers/gptq/gptq_types.py
+++ b/server/text_generation_server/layers/gptq/gptq_types.py
@ -1,69 +0,0 @@
 from dataclasses import dataclass
 from typing import Optional
 import torch
 from text_generation_server.utils.weights import Weight
 from text_generation_server.utils.import_utils import SYSTEM
@dataclass
 class GPTQWeight(Weight):
    qweight: torch.Tensor
    qzeros: torch.Tensor
    scales: torch.Tensor
    g_idx: Optional[torch.Tensor]
    bits: int
    groupsize: int
    use_awq_kernel: bool
    use_exllama: bool
    def __post_init__(self):
        if self.scales.dtype == torch.float:
            self.scales = self.scales.half()
    @property
    def device(self) -> torch.device:
        return self.qweight.device
    def get_linear(self, bias: torch.Tensor):
        if self.use_awq_kernel:
            if SYSTEM == "rocm":
                raise NotImplementedError(
                    "AWQ GEMM kernel can't be used on ROCm systems, please use `--quantize gptq` instead "
                    "to use Exllama/GPTQ kernels for AWQ inference."
                )
            try:
                from text_generation_server.layers.awq.quantize.qmodule import WQLinear
                return WQLinear(
                    w_bit=self.bits,
                    group_size=self.groupsize,
                    qweight=self.qweight,
                    qzeros=self.qzeros,
                    scales=self.scales,
                    bias=bias,
                )
            except ImportError:
                raise NotImplementedError(
                    "You do not seem to have awq installed, either install it (cd server &&  make install-awq), or try using GPTQ `---quantize gptq` a conversion AWQ->GPTQ will happen on the fly"
                )
        elif self.use_exllama:
            try:
                from text_generation_server.layers.gptq import ExllamaQuantLinear
            except ImportError:
                raise NotImplementedError(
                    "Exllama gptq kernels are not installed. Install them `cd server/exllama_kernels && python setup.py install && cd ../exllamav2_kernels && python setup.py install`"
                )
            return ExllamaQuantLinear(self, bias)
        else:
            from text_generation_server.layers.gptq.quant_linear import QuantLinear
            return QuantLinear(
                self.qweight,
                self.qzeros,
                self.scales,
                self.g_idx,
                bias,
                self.bits,
                self.groupsize,
            )