Changing return everywhere.

2025-09-11 20:34:54 +00:00 · 2024-07-01 12:08:59 +00:00 · 2024-07-01 12:08:59 +00:00 · 8fa8cda660
commit 8fa8cda660
parent a26e57f9f3
12 changed files with 13 additions and 13 deletions
--- a/server/text_generation_server/models/custom_modeling/flash_dbrx_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_dbrx_modeling.py
@ -336,7 +336,7 @@ class DbrxAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_gemma2_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_gemma2_modeling.py
@ -251,7 +251,7 @@ class FlashGemma2Attention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_gemma_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_gemma_modeling.py
@ -245,7 +245,7 @@ class FlashGemmaAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_gpt2_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_gpt2_modeling.py
@ -245,7 +245,7 @@ class FlashGPT2Attention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_mistral_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_mistral_modeling.py
@ -229,7 +229,7 @@ class MistralAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_mixtral_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_mixtral_modeling.py
@ -291,7 +291,7 @@ class MixtralAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_neox_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_neox_modeling.py
@ -168,7 +168,7 @@ class FlashNeoxAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                qkv[:, 0],
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_phi_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_phi_modeling.py
@ -207,7 +207,7 @@ class FlashPhiAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_qwen2_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_qwen2_modeling.py
@ -149,7 +149,7 @@ class Qwen2Attention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_rw_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_rw_modeling.py
@ -217,7 +217,7 @@ class FlashRWAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
@ -340,7 +340,7 @@ class FlashRWLargeAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_santacoder_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_santacoder_modeling.py
@ -301,7 +301,7 @@ class FlashMQAttention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],
--- a/server/text_generation_server/models/custom_modeling/flash_starcoder2_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_starcoder2_modeling.py
@ -255,7 +255,7 @@ class Starcoder2Attention(torch.nn.Module):
            )
        # Decode
        else:
-            paged_attention(
+            attn_output = paged_attention(
                attn_output,
                query,
                kv_cache[0],