fix: LlamaTokenizerFast to AutoTokenizer at flash_llama.py

2025-09-10 20:04:52 +00:00 · 2023-07-16 21:09:02 +09:00 · 2023-07-16 21:09:02 +09:00 · abe4e4b1cc
commit abe4e4b1cc
parent a2cf1bdb2f
1 changed files with 3 additions and 3 deletions
--- a/server/text_generation_server/models/flash_llama.py
+++ b/server/text_generation_server/models/flash_llama.py
@ -2,8 +2,8 @@ import torch
 import torch.distributed
 from opentelemetry import trace
-from transformers import AutoConfig
+from transformers import AutoConfig, AutoTokenizer
-from transformers.models.llama import LlamaTokenizer, LlamaTokenizerFast
+from transformers.models.llama import LlamaTokenizer
 from typing import Optional
 from text_generation_server.models import FlashCausalLM
@ -44,7 +44,7 @@ class FlashLlama(FlashCausalLM):
                trust_remote_code=trust_remote_code,
            )
        except Exception:
-            tokenizer = LlamaTokenizerFast.from_pretrained(
+            tokenizer = AutoTokenizer.from_pretrained(
                model_id,
                revision=revision,
                padding_side="left",