Take load_kernel out of a frequently-called function

2025-09-11 04:14:52 +00:00 · 2025-02-05 12:58:44 +00:00 · 2025-02-05 12:58:44 +00:00 · f74a50d41b
commit f74a50d41b
parent 875ce6d521
1 changed files with 13 additions and 8 deletions
--- a/server/text_generation_server/layers/attention/kv_cache.py
+++ b/server/text_generation_server/layers/attention/kv_cache.py
@ -11,6 +11,18 @@ from text_generation_server.utils.kernels import load_kernel
 from text_generation_server.utils.log import log_once
 from text_generation_server.utils.weights import Weights
 if SYSTEM == "cuda":
    try:
        attention_kernels = load_kernel(
            module="attention", repo_id="kernels-community/attention"
        )
    except Exception as e:
        raise ImportError(
            f"Could not import attention_kernels. Make sure your installation is correct. Complete error: {e}"
        )
 else:
    attention_kernels = None
@dataclass
 class KVScales:
@ -221,14 +233,7 @@ def paged_reshape_and_cache(
 ):
    if SYSTEM == "cuda":
-        try:
+        assert attention_kernels is not None
            attention_kernels = load_kernel(
                module="attention", repo_id="kernels-community/attention"
            )
        except Exception as e:
            raise ImportError(
                f"Could not import attention_kernels. Make sure your installation is correct. Complete error: {e}"
            )
        kv_cache_dtype = "auto"
        if key_cache.dtype == torch.float8_e4m3fn: