do not set sliding_window if SUPPORTS_WINDOWING is false

Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>
2025-09-11 20:34:54 +00:00 · 2024-09-23 20:48:43 -07:00 · 2024-09-23 20:48:43 -07:00 · a05f3849e4
commit a05f3849e4
parent 9263817c71
1 changed files with 16 additions and 5 deletions
--- a/server/text_generation_server/models/flash_causal_lm.py
+++ b/server/text_generation_server/models/flash_causal_lm.py
@ -47,6 +47,7 @@ from text_generation_server.models.globals import (
    get_adapter_to_index,
 )
 from text_generation_server.layers.attention import Seqlen
 from text_generation_server.layers.attention import SUPPORTS_WINDOWING
 from text_generation_server.utils import StoppingCriteria, HeterogeneousNextTokenChooser
 from text_generation_server.utils.dist import MEMORY_FRACTION
 from text_generation_server.utils.quantization import get_loader
@ -992,6 +993,21 @@ class FlashCausalLM(Model):
        )
        prefix = ""
        if getattr(config, "sliding_window", None) is not None and SUPPORTS_WINDOWING:
            set_sliding_window(config.sliding_window)
        else:
            config.sliding_window = None
        text_config = getattr(config, "text_config", None)
        if text_config:
            if (
                getattr(text_config, "sliding_window", None) is not None
                and SUPPORTS_WINDOWING
            ):
                set_sliding_window(text_config.sliding_window)
            else:
                text_config.sliding_window = None
        model = model_class(prefix, config, weights)
        torch.distributed.barrier(group=self.process_group)
@ -1000,11 +1016,6 @@ class FlashCausalLM(Model):
        if text_config is not None:
            config = text_config
        if getattr(config, "sliding_window", None) is not None:
            set_sliding_window(config.sliding_window)
        else:
            config.sliding_window = None
        self.num_layers = config.num_hidden_layers
        self.num_heads = config.num_attention_heads // self.process_group.size()
        # Validation is done in the model itself