fix: include create_exllama_buffers and set_device for exllama (#2407)

2025-07-09 01:10:17 +00:00 · 2024-08-12 17:59:37 -04:00 · 2024-08-12 17:59:37 -04:00 · 10b2be6536
commit 10b2be6536
parent 1f8c0f83e3
1 changed files with 4 additions and 0 deletions
--- a/server/text_generation_server/layers/gptq/init.py
+++ b/server/text_generation_server/layers/gptq/init.py
@ -422,12 +422,16 @@ elif CAN_EXLLAMA:
        if V2:
            from text_generation_server.layers.gptq.exllamav2 import (
                QuantLinear as ExllamaQuantLinear,  # noqa: F401
                create_exllama_buffers,  # noqa: F401
                set_device,  # noqa: F401
            )
            HAS_EXLLAMA = "2"
        else:
            from text_generation_server.layers.gptq.exllama import (
                Ex4bitLinear as ExllamaQuantLinear,  # noqa: F401
                create_exllama_buffers,  # noqa: F401
                set_device,  # noqa: F401
            )
            HAS_EXLLAMA = "1"