add clear cache when batch is finished

2025-09-10 11:54:52 +00:00 · 2023-07-19 01:12:28 +02:00 · 2023-07-19 01:12:28 +02:00 · 8793ae5890
commit 8793ae5890
parent 0111869ad0
2 changed files with 3 additions and 0 deletions
--- a/router/src/infer.rs
+++ b/router/src/infer.rs
@ -349,6 +349,7 @@ async fn batching_task(
            }
            metrics::gauge!("tgi_batch_current_size", 0.0);
            metrics::gauge!("tgi_batch_current_max_tokens", 0.0);
+            let _ = client.clear_cache(None).await;
        }
    }
 }
--- a/server/text_generation_server/cache.py
+++ b/server/text_generation_server/cache.py
@ -29,6 +29,8 @@ class Cache:
        keys = list(self.cache.keys())
        for k in keys:
            self.delete(k)
+        if torch.cuda.is_available():
+            torch.cuda.empty_cache()

    def __len__(self):
        return len(self.cache.keys())