fix flash models

2025-09-10 03:44:54 +00:00 · 2023-05-15 18:12:50 +02:00 · 2023-05-15 18:12:50 +02:00 · 391b80c0f4
commit 391b80c0f4
parent a0abfa278e
3 changed files with 4 additions and 6 deletions
--- a/server/text_generation_server/models/custom_modeling/flash_neox_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_neox_modeling.py
@ -21,8 +21,6 @@
 import torch
 import torch.distributed
 from torch.nn import functional as F
 from torch import nn
 from transformers.activations import ACT2FN
 from transformers.modeling_utils import PreTrainedModel
@ -32,7 +30,6 @@ from typing import Optional
 # Flash attention imports
 import flash_attn_cuda
 from flash_attn.layers.rotary import RotaryEmbedding
 from text_generation_server.utils.layers import (
    FastLinear,
    TensorParallelRowLinear,
--- a/server/text_generation_server/models/custom_modeling/flash_santacoder_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_santacoder_modeling.py
@ -1,8 +1,6 @@
 import torch
 import torch.distributed
 import torch.nn.functional as F
 from torch import nn
 from transformers.activations import ACT2FN
 from typing import Optional
--- a/server/text_generation_server/utils/layers.py
+++ b/server/text_generation_server/utils/layers.py
@ -128,6 +128,7 @@ class TensorParallelEmbedding(nn.Embedding):
        num_embeddings,
        embedding_dim,
        process_group: torch.distributed.ProcessGroup,
        reduce=True,
        padding_idx=None,
        max_norm=None,
        norm_type=2.0,
@ -137,6 +138,7 @@ class TensorParallelEmbedding(nn.Embedding):
        device=None,
        dtype=None,
    ):
        self.reduce = reduce
        self.process_group = process_group
        self.tp_rank = process_group.rank()
        self.tp_world_size = process_group.size()
@ -179,7 +181,8 @@ class TensorParallelEmbedding(nn.Embedding):
            input - self.min_id,
        )
        out = super().forward(input)
-        torch.distributed.all_reduce(out, group=self.process_group)
+        if self.reduce:
            torch.distributed.all_reduce(out, group=self.process_group)
        return out