text-generation-inference/backends/trtllm/src/backend.rs

use std::cell::RefCell;
use std::path::Path;

use async_trait::async_trait;
use cxx::UniquePtr;
use tokenizers::Tokenizer;
use tokio::sync::mpsc;
use tokio::time::Instant;
use tokio_stream::wrappers::UnboundedReceiverStream;

use text_generation_router::infer::{Backend, InferError, InferStreamResponse};
use text_generation_router::validation::{Chunk, ValidGenerateRequest};

use crate::errors::TensorRtLlmBackendError;
use crate::ffi::{create_trtllm_backend, TensorRtLlmBackendImpl};

struct GenerationContext(mpsc::UnboundedSender<Result<InferStreamResponse, InferError>>);

pub struct TrtLLmBackend {
    tokenizer: Tokenizer,
    inner: RefCell<UniquePtr<TensorRtLlmBackendImpl>>,
}

unsafe impl Sync for TrtLLmBackend {}
unsafe impl Send for TrtLLmBackend {}

impl TrtLLmBackend {
    pub fn new<P: AsRef<Path>>(
        tokenizer: Tokenizer,
        engine_folder: P,
    ) -> Result<Self, TensorRtLlmBackendError> {
        let engine_folder = engine_folder.as_ref();
        let inner = create_trtllm_backend(engine_folder.to_str().unwrap(), "");

        Ok(Self {
            tokenizer,
            inner: RefCell::new(inner),
        })
    }
}

#[async_trait]
impl Backend for TrtLLmBackend {
    fn schedule(
        &self,
        request: ValidGenerateRequest,
    ) -> Result<UnboundedReceiverStream<Result<InferStreamResponse, InferError>>, InferError> {
        let (sender, receiver) = mpsc::unbounded_channel();
        let ctx = Box::new(GenerationContext(sender));

        // Unpack parameters
        let params = request.parameters;

        // Currently we handle single chunk of text
        if request.inputs.len() == 1 {
            match request
                .inputs
                .first()
                .expect("Failed to access the first chunk")
            {
                Chunk::Text(text) => {
                    let encoding = self
                        .tokenizer
                        .encode(&**text, true)
                        .map_err(|e| InferError::ToolError(e.to_string()))?;

                    let _start = Instant::now();
                    let _request_id = self
                        .inner
                        .borrow_mut()
                        .as_mut()
                        .expect("Failed to retrieve pointer to TRTLLM backend")
                        .submit(
                            encoding.get_ids(),
                            128,
                            params.top_k as i32,
                            params.top_p,
                            params.temperature,
                            params.seed,
                        );

                    // spawn_blocking(|| {
                    //     // Stream generated tokens
                    //     let num_generated_tokens = self
                    //         .inner
                    //         .borrow_mut()
                    //         .as_mut()
                    //         .expect("Failed to retrieve pointer to TRTLLM backend")
                    //         .stream(request_id, ctx, |token, step, is_final| {
                    //             // self.tokenizer.decode(&*[token], true).unwrap();
                    //             let token = Token {
                    //                 id: token,
                    //                 text: String::from(""),
                    //                 logprob: 1.0f32,
                    //                 special: false,
                    //             };
                    //
                    //             sender
                    //                 .send(Ok(InferStreamResponse::Intermediate {
                    //                     token,
                    //                     top_tokens: vec![],
                    //                 }))
                    //                 .unwrap()
                    //         });
                    //
                    //     // Notify the end
                    //     Ok(InferStreamResponse::End {
                    //         token: Token {
                    //             id: 0,
                    //             text: String::from(""),
                    //             logprob: 1.0f32,
                    //             special: false,
                    //         },
                    //         top_tokens: vec![],
                    //         generated_text: GeneratedText {
                    //             text: String::from(""),
                    //             generated_tokens: num_generated_tokens,
                    //             finish_reason: FinishReason::EndOfSequenceToken,
                    //             seed: Some(params.seed),
                    //         },
                    //         start,
                    //         queued: Instant::now(),
                    //     })
                    // });
                }
                Chunk::Image(_) => {}
            }
        };

        Ok(UnboundedReceiverStream::new(receiver))
    }

    async fn health(&self, _current_health: bool) -> bool {
        self.inner.borrow_mut().is_ready()
    }
}
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`use std::cell::RefCell;`
Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00			`use std::path::Path;`

			`use async_trait::async_trait;`
			`use cxx::UniquePtr;`
Enable end to end CMake build 2024-07-03 08:27:53 +00:00			`use tokenizers::Tokenizer;`
			`use tokio::sync::mpsc;`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`use tokio::time::Instant;`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00			`use tokio_stream::wrappers::UnboundedReceiverStream;`

			`use text_generation_router::infer::{Backend, InferError, InferStreamResponse};`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`use text_generation_router::validation::{Chunk, ValidGenerateRequest};`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00
Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00			`use crate::errors::TensorRtLlmBackendError;`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`use crate::ffi::{create_trtllm_backend, TensorRtLlmBackendImpl};`

			`struct GenerationContext(mpsc::UnboundedSender<Result<InferStreamResponse, InferError>>);`
Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00
			`pub struct TrtLLmBackend {`
Enable end to end CMake build 2024-07-03 08:27:53 +00:00			`tokenizer: Tokenizer,`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`inner: RefCell<UniquePtr<TensorRtLlmBackendImpl>>,`
Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00			`}`

			`unsafe impl Sync for TrtLLmBackend {}`
			`unsafe impl Send for TrtLLmBackend {}`

			`impl TrtLLmBackend {`
Enable end to end CMake build 2024-07-03 08:27:53 +00:00			`pub fn new<P: AsRef<Path>>(`
			`tokenizer: Tokenizer,`
			`engine_folder: P,`
			`) -> Result<Self, TensorRtLlmBackendError> {`
Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00			`let engine_folder = engine_folder.as_ref();`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`let inner = create_trtllm_backend(engine_folder.to_str().unwrap(), "");`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`Ok(Self {`
			`tokenizer,`
			`inner: RefCell::new(inner),`
			`})`
Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00			`}`
			`}`

			`#[async_trait]`
			`impl Backend for TrtLLmBackend {`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00			`fn schedule(`
			`&self,`
Enable end to end CMake build 2024-07-03 08:27:53 +00:00			`request: ValidGenerateRequest,`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00			`) -> Result<UnboundedReceiverStream<Result<InferStreamResponse, InferError>>, InferError> {`
Enable end to end CMake build 2024-07-03 08:27:53 +00:00			`let (sender, receiver) = mpsc::unbounded_channel();`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`let ctx = Box::new(GenerationContext(sender));`

			`// Unpack parameters`
			`let params = request.parameters;`

			`// Currently we handle single chunk of text`
			`if request.inputs.len() == 1 {`
			`match request`
			`.inputs`
			`.first()`
			`.expect("Failed to access the first chunk")`
			`{`
			`Chunk::Text(text) => {`
			`let encoding = self`
			`.tokenizer`
			`.encode(&**text, true)`
			`.map_err(\|e\| InferError::ToolError(e.to_string()))?;`

			`let _start = Instant::now();`
			`let _request_id = self`
			`.inner`
			`.borrow_mut()`
			`.as_mut()`
			`.expect("Failed to retrieve pointer to TRTLLM backend")`
			`.submit(`
			`encoding.get_ids(),`
			`128,`
			`params.top_k as i32,`
			`params.top_p,`
			`params.temperature,`
			`params.seed,`
			`);`

			`// spawn_blocking(\|\| {`
			`// // Stream generated tokens`
			`// let num_generated_tokens = self`
			`// .inner`
			`// .borrow_mut()`
			`// .as_mut()`
			`// .expect("Failed to retrieve pointer to TRTLLM backend")`
			`// .stream(request_id, ctx, \|token, step, is_final\| {`
			`// // self.tokenizer.decode(&*[token], true).unwrap();`
			`// let token = Token {`
			`// id: token,`
			`// text: String::from(""),`
			`// logprob: 1.0f32,`
			`// special: false,`
			`// };`
			`//`
			`// sender`
			`// .send(Ok(InferStreamResponse::Intermediate {`
			`// token,`
			`// top_tokens: vec![],`
			`// }))`
			`// .unwrap()`
			`// });`
			`//`
			`// // Notify the end`
			`// Ok(InferStreamResponse::End {`
			`// token: Token {`
			`// id: 0,`
			`// text: String::from(""),`
			`// logprob: 1.0f32,`
			`// special: false,`
			`// },`
			`// top_tokens: vec![],`
			`// generated_text: GeneratedText {`
			`// text: String::from(""),`
			`// generated_tokens: num_generated_tokens,`
			`// finish_reason: FinishReason::EndOfSequenceToken,`
			`// seed: Some(params.seed),`
			`// },`
			`// start,`
			`// queued: Instant::now(),`
			`// })`
			`// });`
			`}`
			`Chunk::Image(_) => {}`
			`}`
			`};`
Enable end to end CMake build 2024-07-03 08:27:53 +00:00
			`Ok(UnboundedReceiverStream::new(receiver))`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00			`}`

Working FFI call for TGI and TRTLLM backend 2024-07-01 13:53:23 +00:00			`async fn health(&self, _current_health: bool) -> bool {`
working setup of the ffi layer 2024-07-11 21:24:32 +00:00			`self.inner.borrow_mut().is_ready()`
Initial setup for CXX binding to TRTLLM 2024-06-30 21:37:20 +00:00			`}`
			`}`