text-generation-inference/server/text_generation_server/quant/__init__.py

from .quantizer import Quantizer
from .fused_attn import QuantLlamaAttention, make_quant_attn
from .fused_mlp import QuantLlamaMLP, make_fused_mlp, autotune_warmup_fused
from .quant_linear import QuantLinear, make_quant_linear, autotune_warmup_linear
[WIP] Adding GPTQ support for llama 2023-05-02 17:07:33 +00:00			`from .quantizer import Quantizer`
			`from .fused_attn import QuantLlamaAttention, make_quant_attn`
			`from .fused_mlp import QuantLlamaMLP, make_fused_mlp, autotune_warmup_fused`
			`from .quant_linear import QuantLinear, make_quant_linear, autotune_warmup_linear`