From 14bbd311c18874cd780ce975920d4ff39de1622a Mon Sep 17 00:00:00 2001
From: Nicolas Patry <patry.nicolas@protonmail.com>
Date: Wed, 6 Sep 2023 14:35:02 +0200
Subject: [PATCH] Dummy workaround for CPU.

---
 server/text_generation_server/utils/layers.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/server/text_generation_server/utils/layers.py b/server/text_generation_server/utils/layers.py
index 644113bd..6be54048 100644
--- a/server/text_generation_server/utils/layers.py
+++ b/server/text_generation_server/utils/layers.py
@@ -18,7 +18,10 @@ from accelerate import init_empty_weights
 
 from text_generation_server.utils.gptq.quant_linear import QuantLinear
 
-major, _minor = torch.cuda.get_device_capability()
+try:
+    major, _minor = torch.cuda.get_device_capability()
+except Exception:
+    major = 1
 HAS_EXLLAMA = False
 CAN_EXLLAMA = major >= 8
 if os.getenv("DISABLE_EXLLAMA") == "True":