raise error if needed

2025-09-11 12:24:53 +00:00 · 2025-01-20 11:29:51 +01:00 · 2025-01-20 11:29:51 +01:00 · 2659b5998b
commit 2659b5998b
parent f01014de37
2 changed files with 3 additions and 1 deletions
--- a/server/text_generation_server/models/init.py
+++ b/server/text_generation_server/models/init.py
@ -380,6 +380,8 @@ def get_model(
    transformers_model_class = getattr(transformers, modeling_auto.MODEL_FOR_CAUSAL_LM_MAPPING_NAMES[model_type])
    if transformers_model_class.is_backend_compatible():
        transformers_causal_lm_class = TransformersFlashCausalLM
+        if not FLASH_ATTENTION and lora_adapter_ids is not None and len(lora_adapter_ids) > 0:
+            raise ValueError("Transformers backend AutoModel do not support `lora_adapter_ids`.")

    quantization_config = config_dict.get("quantization_config", None)
    if quantization_config is None:
--- a/server/text_generation_server/models/transformers_flash_causal_lm.py
+++ b/server/text_generation_server/models/transformers_flash_causal_lm.py
@ -48,7 +48,7 @@ def tgi_flash_attention_forward(
    softmax_scale: Optional[float] = None,
    sliding_window: Optional[int] = None,
    softcap: Optional[float] = None,
-    **kwargs,  # This is needed to "absorb" other args passed by Transformers modeling
+    **_kwargs,  # This is needed to "absorb" other args passed by Transformers modeling
 ):

    kv_cache = kv_cache[module.layer_idx]