Fix missing make target: https://github.com/huggingface/text-generation-inference/issues/1397

2025-09-11 04:14:52 +00:00 · 2024-01-05 17:29:35 -05:00 · 2024-01-05 17:29:35 -05:00 · 716fe00d92
commit 716fe00d92
parent 630800eed3
1 changed files with 6 additions and 1 deletions
--- a/server/text_generation_server/utils/flash_attn.py
+++ b/server/text_generation_server/utils/flash_attn.py
@ -23,10 +23,15 @@ try:
    try:
        import flash_attn_2_cuda
    except ImportError:
        architecture_suffix = ""
        if IS_CUDA_SYSTEM:
            architecture_suffix = "-cuda"
        elif IS_ROCM_SYSTEM:
            architecture_suffix = "-rocm"
        raise ImportError(
            "Flash Attention V2 is not installed.\n"
            "Use the official Docker image (ghcr.io/huggingface/text-generation-inference:latest) "
-            "or install flash attention v2 with `cd server && make install install-flash-attention-v2`"
+            f"or install flash attention v2 with `cd server && make install install-flash-attention-v2{architecture_suffix}`"
        )
    if not (is_sm8x or is_sm90):
        raise ImportError(