text-generation-inference/server/text_generation_server/models/model.py

import torch

from abc import ABC, abstractmethod
from typing import List, Tuple, Optional, TypeVar, Type
from transformers import PreTrainedTokenizerBase

from text_generation_server.models.types import Batch, GeneratedText

B = TypeVar("B", bound=Batch)


class Model(ABC):
    def __init__(self, tokenizer: PreTrainedTokenizerBase, device: torch.device):
        self.tokenizer = tokenizer
        self.all_special_ids = set(tokenizer.all_special_ids)
        self.device = device

    @property
    @abstractmethod
    def batch_type(self) -> Type[B]:
        raise NotImplementedError

    @abstractmethod
    def generate_token(self, batch: B) -> Tuple[List[GeneratedText], Optional[B]]:
        raise NotImplementedError

    def decode_token(self, previous_token_id: int, token_id: int) -> str:
        """Hack to hopefully support generate_stream for the maximum number of tokenizers"""
        # Decode previous token and previous token + token
        results = self.tokenizer.batch_decode(
            [[previous_token_id], [previous_token_id, token_id]],
            skip_special_tokens=False,
        )
        # slice to remove previous token
        return results[1][len(results[0]) :]
feat(server): Support generic AutoModelForCausalLM 2022-11-04 13:22:47 +00:00			`import torch`

fix(models): Revert buggy support for AutoModel 2022-11-03 15:07:54 +00:00			`from abc import ABC, abstractmethod`
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 17:03:04 +00:00			`from typing import List, Tuple, Optional, TypeVar, Type`
fix(server): Minor refactorization using new_zeros (#24) - Fix some type hints, in particular base tokenizer class - Make use of `tensor.new_zero/empty` methods - Simplify env var string parsing in launcher 2023-01-17 08:10:22 +00:00			`from transformers import PreTrainedTokenizerBase`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 17:24:00 +00:00
feat(clients): Python client (#103) 2023-03-07 17:52:22 +00:00			`from text_generation_server.models.types import Batch, GeneratedText`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 17:24:00 +00:00
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 17:03:04 +00:00			`B = TypeVar("B", bound=Batch)`

feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 17:24:00 +00:00
fix(models): Revert buggy support for AutoModel 2022-11-03 15:07:54 +00:00			`class Model(ABC):`
fix(server): Minor refactorization using new_zeros (#24) - Fix some type hints, in particular base tokenizer class - Make use of `tensor.new_zero/empty` methods - Simplify env var string parsing in launcher 2023-01-17 08:10:22 +00:00			`def __init__(self, tokenizer: PreTrainedTokenizerBase, device: torch.device):`
feat(server): Support generic AutoModelForCausalLM 2022-11-04 13:22:47 +00:00			`self.tokenizer = tokenizer`
feat(server): add special token bool (#85) 2023-02-24 14:55:57 +00:00			`self.all_special_ids = set(tokenizer.all_special_ids)`
feat(server): Support generic AutoModelForCausalLM 2022-11-04 13:22:47 +00:00			`self.device = device`

feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 17:03:04 +00:00			`@property`
fix(models): Revert buggy support for AutoModel 2022-11-03 15:07:54 +00:00			`@abstractmethod`
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 17:03:04 +00:00			`def batch_type(self) -> Type[B]:`
fix(models): Revert buggy support for AutoModel 2022-11-03 15:07:54 +00:00			`raise NotImplementedError`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 17:24:00 +00:00
feat(server): Support AutoModelForSeq2SeqLM 2022-11-04 17:03:04 +00:00			`@abstractmethod`
			`def generate_token(self, batch: B) -> Tuple[List[GeneratedText], Optional[B]]:`
			`raise NotImplementedError`
fix(server): fix generate_stream by forcing tokens to be decoded correctly (#100) 2023-03-06 12:22:58 +00:00
optional rust validation 2023-04-04 10:35:29 +00:00			`def decode_token(self, previous_token_id: int, token_id: int) -> str:`
fix(server): fix generate_stream by forcing tokens to be decoded correctly (#100) 2023-03-06 12:22:58 +00:00			`"""Hack to hopefully support generate_stream for the maximum number of tokenizers"""`
optional rust validation 2023-04-04 10:35:29 +00:00			`# Decode previous token and previous token + token`
			`results = self.tokenizer.batch_decode(`
			`[[previous_token_id], [previous_token_id, token_id]],`
			`skip_special_tokens=False,`
fix(server): fix generate_stream by forcing tokens to be decoded correctly (#100) 2023-03-06 12:22:58 +00:00			`)`
optional rust validation 2023-04-04 10:35:29 +00:00			`# slice to remove previous token`
			`return results[1][len(results[0]) :]`