more cleaning

2025-09-11 20:34:54 +00:00 · 2024-05-02 15:44:38 +00:00 · 2024-05-02 15:44:38 +00:00 · 6c385626eb
commit 6c385626eb
parent c70742654b
2 changed files with 68 additions and 80 deletions
--- a/server/text_generation_server/server.py
+++ b/server/text_generation_server/server.py
@ -182,22 +182,6 @@ class TextGenerationService(generate_pb2_grpc.TextGenerationServiceServicer):
            total_ns=time.time_ns() - start,
        )

-import signal
-
-class SignalHandler:
-    KEEP_PROCESSING = True
-
-    def __init__(self):
-        signal.signal(signal.SIGINT, self.exit_gracefully)
-        signal.signal(signal.SIGTERM, self.exit_gracefully)
-
-    def exit_gracefully(self, signum, frame):
-        print(f"Exiting gracefully: Signal {signum}")
-        self.KEEP_PROCESSING = False
-
-
-signal_handler = SignalHandler()
-
 def serve(
    model_id: str,
    revision: Optional[str],
--- a/server/text_generation_server/utils/flash_attn.py
+++ b/server/text_generation_server/utils/flash_attn.py
@ -14,15 +14,6 @@ from text_generation_server.utils.flash_attn_triton import triton_attention
 if os.getenv("USE_FLASH_ATTENTION", "").lower() == "false":
    raise ImportError("`USE_FLASH_ATTENTION` is false.")

-if not torch.cuda.is_available():
-    raise ImportError("CUDA is not available")
-
-major, minor = torch.cuda.get_device_capability()
-is_sm75 = major == 7 and minor == 5
-is_sm8x = major == 8 and minor >= 0
-is_sm90 = major == 9 and minor == 0
-is_sm94 = major == 9 and minor == 4
-
 HAS_FLASH_ATTN = False
 HAS_FLASH_ATTN_V2_CUDA = False
 HAS_FLASH_ATTN_V2_ROCM = False
@ -30,7 +21,20 @@ HAS_FLASH_ATTN_V2_ROCM = False
 ROCM_USE_FLASH_ATTN_V2_CK = False
 ROCM_USE_FLASH_ATTN_V2_TRITON = False

-if IS_ROCM_SYSTEM:
+if IS_XPU_SYSTEM:
+    import intel_extension_for_pytorch as ipex
+
+if IS_CUDA_SYSTEM or IS_ROCM_SYSTEM:
+    if not torch.cuda.is_available():
+        raise ImportError("CUDA is not available")
+
+    major, minor = torch.cuda.get_device_capability()
+    is_sm75 = major == 7 and minor == 5
+    is_sm8x = major == 8 and minor >= 0
+    is_sm90 = major == 9 and minor == 0
+    is_sm94 = major == 9 and minor == 4
+
+    if IS_ROCM_SYSTEM:
        if os.getenv("ROCM_USE_FLASH_ATTN_V2_TRITON", "").lower() == "true":
            ROCM_USE_FLASH_ATTN_V2_TRITON = True
            logger.info("ROCm: using Flash Attention 2 Triton implementation.")
@ -38,7 +42,7 @@ if IS_ROCM_SYSTEM:
            ROCM_USE_FLASH_ATTN_V2_CK = True
            logger.info("ROCm: using Flash Attention 2 Composable Kernel implementation.")

-try:
+    try:
        try:
            import flash_attn_2_cuda
        except ImportError:
@ -64,7 +68,7 @@ try:
            )
        HAS_FLASH_ATTN_V2_CUDA = IS_CUDA_SYSTEM
        HAS_FLASH_ATTN_V2_ROCM = IS_ROCM_SYSTEM
-except ImportError as e:
+    except ImportError as e:
        try:
            import flash_attn_cuda
        except ImportError: