fix: adjust pali gemma for post layer norm and small refactors

2025-09-12 12:54:52 +00:00 · 2024-08-26 19:35:39 +00:00 · 2024-08-26 19:35:39 +00:00 · 6256b81baf
commit 6256b81baf
parent b84303e2e9
2 changed files with 9 additions and 12 deletions
--- a/server/text_generation_server/models/custom_modeling/flash_pali_gemma_modeling.py
+++ b/server/text_generation_server/models/custom_modeling/flash_pali_gemma_modeling.py
@ -34,6 +34,11 @@ class PaliGemmaForConditionalGeneration(nn.Module):
            config=config.vision_config,
            weights=weights,
        )
        self.post_vision_tower_layernorm = nn.LayerNorm.load(
            prefix="vision_tower.vision_model.post_layernorm",
            weights=weights,
            eps=config.vision_config.layer_norm_eps,
        )
        self.multi_modal_projector = TensorParallelColumnLinear.load(
            config,
@ -84,7 +89,10 @@ class PaliGemmaForConditionalGeneration(nn.Module):
        if pixel_values is not None:
            pixel_values = pixel_values.to(dtype=inputs_embeds.dtype)
            image_outputs = self.vision_tower(pixel_values)
-            image_features = self.multi_modal_projector(image_outputs.last_hidden_state)
+            last_hidden_state = self.post_vision_tower_layernorm(
                image_outputs.last_hidden_state
            )
            image_features = self.multi_modal_projector(last_hidden_state)
            # mask where image or padding tokens
            mask = input_ids == self.config.image_token_index
--- a/server/text_generation_server/models/custom_modeling/siglip.py
+++ b/server/text_generation_server/models/custom_modeling/siglip.py
@ -364,7 +364,6 @@ class SiglipEncoder(nn.Module):
        inputs_embeds,
        attention_mask: Optional[torch.Tensor] = None,
    ):
        hidden_states = inputs_embeds
        for idx, encoder_layer in enumerate(self.layers):
            hidden_states, _ = encoder_layer(
@ -386,20 +385,11 @@ class SiglipVisionTransformer(nn.Module):
        self.encoder = SiglipEncoder(
            prefix=f"{prefix}.encoder", config=config, weights=weights
        )
        # self.post_layernorm = nn.LayerNorm.load(
        #     prefix=f"{prefix}.post_layernorm",
        #     weights=weights,
        #     eps=config.layer_norm_eps,
        # )
    def forward(
        self,
        pixel_values: Optional[torch.FloatTensor] = None,
    ):
        r"""
        Returns:
        """
        if pixel_values is None:
            raise ValueError("You have to specify pixel_values")
@ -412,7 +402,6 @@ class SiglipVisionTransformer(nn.Module):
            inputs_embeds=hidden_states,
        )
        last_hidden_state = encoder_outputs
        # post_last_hidden_state = self.post_layernorm(last_hidden_state)
        return BaseModelOutputWithPooling(
            last_hidden_state=last_hidden_state,