Hotfixing intel-cpu (not sure how it was working before). (#2967)

* Hotfixing intel-cpu (not sure how it was working before). * Do not fail on missing moe-kernels (Intel-cpu).
2025-04-19 22:02:06 +00:00 · 2025-01-29 22:34:41 +01:00 · 2025-01-29 22:34:41 +01:00 · 80e7d98f88
commit 80e7d98f88
parent ee0dffcd14
2 changed files with 6 additions and 2 deletions
--- a/server/text_generation_server/layers/moe/fp8.py
+++ b/server/text_generation_server/layers/moe/fp8.py
@ -10,7 +10,11 @@ from text_generation_server.layers.fp8 import (
    quant_dtype,
    normalize_e4m3fn_to_native_float8,
 )
+
+try:
    from moe_kernels.fused_moe import fused_moe
+except Exception:
+    fused_moe = None


 class FP8SparseMoELayer(nn.Module):
--- a/server/text_generation_server/models/init.py
+++ b/server/text_generation_server/models/init.py
@ -180,7 +180,7 @@ except ImportError as e:
 if MAMBA_AVAILABLE:
    __all__.append(Mamba)

-FLASH_TRANSFORMERS_BACKEND = True
+FLASH_TRANSFORMERS_BACKEND = torch.cuda.is_available()
 try:
    from text_generation_server.models.transformers_flash_causal_lm import (
        TransformersFlashCausalLM,