fix truncation

2025-09-09 19:34:53 +00:00 · 2023-04-09 09:55:05 +02:00 · 2023-04-09 09:55:05 +02:00 · 82464709d3
commit 82464709d3
parent 146e0e27ce
11 changed files with 12 additions and 10 deletions
--- a/server/text_generation_server/models/bloom.py
+++ b/server/text_generation_server/models/bloom.py
@ -68,7 +68,7 @@ class BLOOMSharded(BLOOM):
            dtype = torch.float32

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = AutoConfig.from_pretrained(
--- a/server/text_generation_server/models/causal_lm.py
+++ b/server/text_generation_server/models/causal_lm.py
@ -303,7 +303,7 @@ class CausalLM(Model):
            dtype = torch.float32

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )
        self.model = AutoModelForCausalLM.from_pretrained(
            model_id,
--- a/server/text_generation_server/models/flash_causal_lm.py
+++ b/server/text_generation_server/models/flash_causal_lm.py
@ -224,7 +224,7 @@ class FlashCausalLM(Model):
            raise NotImplementedError("FlashCausalLM does not support quantization")

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )
        self.model = (
            model_cls.from_pretrained(
--- a/server/text_generation_server/models/flash_llama.py
+++ b/server/text_generation_server/models/flash_llama.py
@ -42,6 +42,7 @@ class FlashLlama(FlashCausalLM):
            model_id,
            revision=revision,
            padding_side="left",
+            truncation_side="left",
        )

        config = AutoConfig.from_pretrained(
@ -160,6 +161,7 @@ class FlashLlamaSharded(FlashLlama):
            model_id,
            revision=revision,
            padding_side="left",
+            truncation_side="left",
        )

        config = AutoConfig.from_pretrained(
--- a/server/text_generation_server/models/flash_neox.py
+++ b/server/text_generation_server/models/flash_neox.py
@ -45,7 +45,7 @@ class FlashNeoXSharded(FlashNeoX):
            raise NotImplementedError("FlashNeoX does not support quantization")

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = AutoConfig.from_pretrained(
--- a/server/text_generation_server/models/flash_santacoder.py
+++ b/server/text_generation_server/models/flash_santacoder.py
@ -33,7 +33,7 @@ class FlashSantacoder(FlashCausalLM):
            raise NotImplementedError("FlashSantacoder does not support quantization")

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = AutoConfig.from_pretrained(
--- a/server/text_generation_server/models/galactica.py
+++ b/server/text_generation_server/models/galactica.py
@ -198,7 +198,7 @@ class GalacticaSharded(Galactica):
            dtype = torch.float32

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = AutoConfig.from_pretrained(
--- a/server/text_generation_server/models/gpt_neox.py
+++ b/server/text_generation_server/models/gpt_neox.py
@ -44,7 +44,7 @@ class GPTNeoxSharded(CausalLM):
            dtype = torch.float32

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )
        tokenizer.pad_token = tokenizer.eos_token

--- a/server/text_generation_server/models/santacoder.py
+++ b/server/text_generation_server/models/santacoder.py
@ -26,7 +26,7 @@ class SantaCoder(CausalLM):
            dtype = torch.float32

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )
        tokenizer.add_special_tokens(
            {
--- a/server/text_generation_server/models/seq2seq_lm.py
+++ b/server/text_generation_server/models/seq2seq_lm.py
@ -349,7 +349,7 @@ class Seq2SeqLM(Model):
            load_in_8bit=quantize,
        ).eval()
        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )
        tokenizer.bos_token_id = self.model.config.decoder_start_token_id

--- a/server/text_generation_server/models/t5.py
+++ b/server/text_generation_server/models/t5.py
@ -44,7 +44,7 @@ class T5Sharded(Seq2SeqLM):
            dtype = torch.float32

        tokenizer = AutoTokenizer.from_pretrained(
-            model_id, revision=revision, padding_side="left"
+            model_id, revision=revision, padding_side="left", truncation_side="left"
        )

        config = AutoConfig.from_pretrained(