Use a block size of 1 for FlashInfer

2025-09-09 11:24:53 +00:00 · 2024-08-01 11:20:42 +00:00 · 2024-08-01 11:20:42 +00:00 · 4562c16048
commit 4562c16048
parent 8fb8e1da78
3 changed files with 36 additions and 7 deletions
--- a/backends/v3/src/backend.rs
+++ b/backends/v3/src/backend.rs
@ -40,7 +40,18 @@ impl BackendV3 {
        } else {
            false
        };
-        let block_size = if flashdecoding { 256 } else { 16 };
+        let flashinfer = if let Ok(flashinfer) = std::env::var("FLASH_INFER") {
            matches!(flashinfer.to_lowercase().as_str(), "1" | "true")
        } else {
            false
        };
        let block_size = if flashdecoding {
            256
        } else if flashinfer {
            1
        } else {
            16
        };
        let queue = Queue::new(
            requires_padding,
--- a/router/src/infer/v2/scheduler.rs
+++ b/router/src/infer/v2/scheduler.rs
@ -45,7 +45,19 @@ impl BackendV2 {
        } else {
            false
        };
-        let block_size = if flashdecoding { 256 } else { 16 };
+        let flashinfer = if let Ok(flashinfer) = std::env::var("FLASH_INFER") {
            matches!(flashinfer.to_lowercase().as_str(), "1" | "true")
        } else {
            false
        };
        let block_size = if flashdecoding {
            256
        } else if flashinfer {
            1
        } else {
            16
        };
        let queue = Queue::new(requires_padding, block_size, window_size, speculate);
        let batching_task_notifier = Arc::new(Notify::new());
--- a/server/text_generation_server/models/globals.py
+++ b/server/text_generation_server/models/globals.py
@ -5,16 +5,22 @@ from typing import Dict, Optional
 from text_generation_server.utils.log import log_master
 MEM_POOL = torch.cuda.graph_pool_handle() if torch.cuda.is_available() else None
 # This is overridden by the cli
 FLASH_DECODING = os.getenv("FLASH_DECODING") in {"1", "true", "True"}
 if FLASH_DECODING:
    log_master(logger.info, "Using FLASH_DECODING")
 FLASH_INFER = os.getenv("FLASH_INFER") in {"1", "true", "True"}
 if FLASH_INFER:
    log_master(logger.info, "Using FLASH_INFER")
 MEM_POOL = torch.cuda.graph_pool_handle() if torch.cuda.is_available() else None
 # This is overridden by the cli
 FLASH_DECODING = os.getenv("FLASH_DECODING") in {"1", "true", "True"}
 BLOCK_SIZE: int = 256 if FLASH_DECODING else 16
 if FLASH_DECODING:
-    log_master(logger.info, "Using FLASH_DECODING")
+    BLOCK_SIZE = 256
 elif FLASH_INFER:
    BLOCK_SIZE = 1
 else:
    BLOCK_SIZE = 16
 cuda_graphs = os.getenv("CUDA_GRAPHS")