Less clutter.

2025-09-12 04:44:52 +00:00 · 2024-07-22 13:49:24 +00:00 · 2024-07-22 13:49:24 +00:00 · 5829b7821e
commit 5829b7821e
parent 620416f13f
2 changed files with 3 additions and 5 deletions
--- a/server/text_generation_server/models/init.py
+++ b/server/text_generation_server/models/init.py
@ -757,6 +757,8 @@ def get_model(
                default_dtype=torch.bfloat16,
                trust_remote_code=trust_remote_code,
                lora_adapter_ids=lora_adapter_ids,
                # hidden_size / num_attention_heads is wrong in `google/gemma-2-9b-it`
                head_size=config.head_dim,
            )
        elif sharded:
            raise NotImplementedError(FLASH_ATT_ERROR_MESSAGE.format("Sharded Gemma2"))
--- a/server/text_generation_server/models/flash_causal_lm.py
+++ b/server/text_generation_server/models/flash_causal_lm.py
@ -925,11 +925,7 @@ class FlashCausalLM(Model):
        assert self.num_kv_heads > 0
        if head_size is None:
-            if getattr(config, "head_dim", None):
+            self.head_size = config.hidden_size // config.num_attention_heads
                # hidden_size / num_attention_heads is wrong in `google/gemma-2-9b-it`
                self.head_size = config.head_dim
            else:
                self.head_size = config.hidden_size // config.num_attention_heads
        else:
            self.head_size = head_size