Update server/text_generation_server/models/custom_modeling/flash_llama_modeling.py

Co-authored-by: OlivierDehaene <olivier@huggingface.co>
2025-09-11 04:14:52 +00:00 · 2023-11-08 19:06:59 +09:00 · 2023-11-08 19:06:59 +09:00 · f746b8e0ae
commit f746b8e0ae
parent 0f7b9bba33
1 changed files with 2 additions and 0 deletions
--- a/server/text_generation_server/models/custom_modeling/flash_llama_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_llama_modeling.py
@ -160,6 +160,8 @@ class LlamaRMSNorm(nn.Module):
                self.variance_epsilon,
            )
            return out, residual
        else:
            raise RuntimeError("system not supported")
 def load_attention(config, prefix, weights):