xpu add alibi_scope input in varlen_attention in ipex 2.7 while cpu does not. so split the case.

Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>
2025-09-09 03:14:53 +00:00 · 2025-06-29 22:15:12 -07:00 · 2025-06-29 22:15:12 -07:00 · d05a5c3f0a
commit d05a5c3f0a
parent 9f38d93051
3 changed files with 105 additions and 60 deletions
--- a/server/text_generation_server/models/custom_modeling/mllama.py
+++ b/server/text_generation_server/models/custom_modeling/mllama.py
@ -710,34 +710,41 @@ class MllamaTextCrossAttention(nn.Module):
        # )
        if SYSTEM == "ipex":
            attn_output = torch.empty_like(query_states)
-            ipex.llm.functional.varlen_attention(
+            if query_states.device.type == "xpu":
-                (
+                ipex.llm.functional.varlen_attention(
-                    query_states.contiguous()
+                    query_states.contiguous(),
-                    if query_states.device.type == "xpu"
+                    key_states.contiguous(),
-                    else query_states
+                    value_states.contiguous(),
-                ),
+                    attn_output,
-                (
+                    cu_seqlen_q,
-                    key_states.contiguous()
+                    cu_seqlen_k,
-                    if key_states.device.type == "xpu"
+                    None,
-                    else key_states
+                    max_q,
-                ),
+                    max_k,
-                (
+                    0.0,
-                    value_states.contiguous()
+                    self.softmax_scale,
-                    if value_states.device.type == "xpu"
+                    False,
-                    else value_states
+                    causal,
-                ),
+                    False,
-                attn_output,
+                    None,
-                cu_seqlen_q,
+                )
-                cu_seqlen_k,
+            else:
-                max_q,
+                ipex.llm.functional.varlen_attention(
-                max_k,
+                    query_states,
-                0.0,
+                    key_states,
-                self.softmax_scale,
+                    value_states,
-                False,
+                    attn_output,
-                causal,
+                    cu_seqlen_q,
-                False,
+                    cu_seqlen_k,
-                None,
+                    max_q,
-            )
+                    max_k,
                    0.0,
                    self.softmax_scale,
                    False,
                    causal,
                    False,
                    None,
                )
        else:
            attn_output = flash_attn_2_cuda.varlen_fwd(
                query_states,
--- a/server/text_generation_server/models/custom_modeling/qwen2_5_vl.py
+++ b/server/text_generation_server/models/custom_modeling/qwen2_5_vl.py
@ -460,22 +460,41 @@ class Qwen2_5VLAttention(nn.Module):
        # execute flash attention
        if SYSTEM == "ipex":
            attn_output = torch.empty_like(query)
-            ipex.llm.functional.varlen_attention(
+            if query.device.dtype == "xpu":
-                (query.contiguous() if query.device.type == "xpu" else query),
+                ipex.llm.functional.varlen_attention(
-                (key.contiguous() if key.device.type == "xpu" else key),
+                    query.contiguous(),
-                (value.contiguous() if value.device.type == "xpu" else value),
+                    key.contiguous(),
-                attn_output,
+                    value.contiguous(),
-                cu_seqlens,
+                    attn_output,
-                cu_seqlens,
+                    cu_seqlens,
-                max_seqlen,
+                    cu_seqlens,
-                max_seqlen,
+                    None,
-                0.0,
+                    max_seqlen,
-                self.softmax_scale,
+                    max_seqlen,
-                False,
+                    0.0,
-                causal,
+                    self.softmax_scale,
-                False,
+                    False,
-                None,
+                    causal,
-            )
+                    False,
                    None,
                )
            else:
                ipex.llm.functional.varlen_attention(
                    query,
                    key,
                    value,
                    attn_output,
                    cu_seqlens,
                    cu_seqlens,
                    max_seqlen,
                    max_seqlen,
                    0.0,
                    self.softmax_scale,
                    False,
                    causal,
                    False,
                    None,
                )
        else:
            attn_output = flash_attn_2_cuda.varlen_fwd(
                query,
--- a/server/text_generation_server/models/custom_modeling/qwen2_vl.py
+++ b/server/text_generation_server/models/custom_modeling/qwen2_vl.py
@ -130,22 +130,41 @@ class Qwen2VLAttention(nn.Module):
        # execute flash attention
        if SYSTEM == "ipex":
            attn_output = torch.empty_like(query)
-            ipex.llm.functional.varlen_attention(
+            if query.device.type == "xpu":
-                (query.contiguous() if query.device.type == "xpu" else query),
+                ipex.llm.functional.varlen_attention(
-                (key.contiguous() if key.device.type == "xpu" else key),
+                    query.contiguous(),
-                (value.contiguous() if value.device.type == "xpu" else value),
+                    key.contiguous(),
-                attn_output,
+                    value.contiguous(),
-                cu_seqlens,
+                    attn_output,
-                cu_seqlens,
+                    cu_seqlens,
-                max_seqlen,
+                    cu_seqlens,
-                max_seqlen,
+                    None,
-                0.0,
+                    max_seqlen,
-                self.softmax_scale,
+                    max_seqlen,
-                False,
+                    0.0,
-                causal,
+                    self.softmax_scale,
-                False,
+                    False,
-                None,
+                    causal,
-            )
+                    False,
                    None,
                )
            else:
                ipex.llm.functional.varlen_attention(
                    query,
                    key,
                    value,
                    attn_output,
                    cu_seqlens,
                    cu_seqlens,
                    max_seqlen,
                    max_seqlen,
                    0.0,
                    self.softmax_scale,
                    False,
                    causal,
                    False,
                    None,
                )
        else:
            attn_output = flash_attn_2_cuda.varlen_fwd(
                query,