text-generation-inference/router/src/validation.rs

/// Payload validation logic
use crate::{ErrorResponse, GenerateRequest};
use axum::http::StatusCode;
use axum::Json;
use thiserror::Error;
use tokenizers::tokenizer::Tokenizer;
use tokio::sync::{mpsc, oneshot};

const MAX_MAX_NEW_TOKENS: u32 = 512;
const MAX_STOP_SEQUENCES: usize = 4;

/// Validation
#[derive(Debug, Clone)]
pub struct Validation {
    /// Channel to communicate with the background validation task
    sender: mpsc::Sender<ValidationRequest>,
}

impl Validation {
    pub(crate) fn new(workers: usize, tokenizer: Tokenizer, max_input_length: usize) -> Self {
        // Crate channel
        let (validation_sender, validation_receiver) = mpsc::channel(128);

        // Launch background validation task
        tokio::spawn(validation_task(
            workers,
            tokenizer,
            max_input_length,
            validation_receiver,
        ));

        Self {
            sender: validation_sender,
        }
    }

    /// Validate a payload and get the number of tokens in the input
    pub(crate) async fn validate(
        &self,
        request: GenerateRequest,
    ) -> Result<(usize, GenerateRequest), ValidationError> {
        // Create response channel
        let (sender, receiver) = oneshot::channel();
        // Send request to the background validation task
        // Unwrap is safe here
        self.sender.send((request, sender)).await.unwrap();
        // Await on response channel
        // Unwrap is safe here
        receiver.await.unwrap()
    }
}

/// Validation task
/// Load balance the validation requests between multiple validation workers
async fn validation_task(
    workers: usize,
    tokenizer: Tokenizer,
    max_input_length: usize,
    mut receiver: mpsc::Receiver<ValidationRequest>,
) {
    let mut workers_senders = Vec::with_capacity(workers);

    // Create workers
    for _ in 0..workers {
        let tokenizer_clone: Tokenizer = tokenizer.clone().into();
        // Create channel to communicate with worker
        let (worker_sender, worker_receiver) = mpsc::channel(workers);
        workers_senders.push(worker_sender);

        // Spawn worker
        tokio::task::spawn_blocking(move || {
            validation_worker(tokenizer_clone, max_input_length, worker_receiver)
        });
    }

    loop {
        // Load balance requests between workers
        for sender in workers_senders.iter() {
            if let Some(validation_request) = receiver.recv().await {
                sender.send(validation_request).await.unwrap();
            } else {
                return;
            }
        }
    }
}

/// Check the parameters inside the payload and get the number of tokens inside the input using
/// the tokenizer
fn validation_worker(
    tokenizer: Tokenizer,
    max_input_length: usize,
    mut receiver: mpsc::Receiver<ValidationRequest>,
) {
    // Loop over requests
    while let Some((request, response_tx)) = receiver.blocking_recv() {
        response_tx.send(validate(request, &tokenizer, max_input_length)).unwrap_or(())
    }
}

fn validate(
    request: GenerateRequest,
    tokenizer: &Tokenizer,
    max_input_length: usize,
) -> Result<(usize, GenerateRequest), ValidationError> {
    if request.parameters.temperature <= 0.0 {
        return Err(ValidationError::Temperature);
    }
    if request.parameters.top_p <= 0.0 || request.parameters.top_p > 1.0 {
        return Err(ValidationError::TopP);
    }
    if request.parameters.top_k < 0 {
        return Err(ValidationError::TopK);
    }
    if request.parameters.max_new_tokens > MAX_MAX_NEW_TOKENS {
        return Err(ValidationError::MaxNewTokens(MAX_MAX_NEW_TOKENS));
    }
    if request.parameters.stop.len() > MAX_STOP_SEQUENCES {
        return Err(ValidationError::StopSequence(
            MAX_STOP_SEQUENCES, request.parameters.stop.len(),
        ))
    }

    // Get the number of tokens in the input
    match tokenizer.encode(request.inputs.clone(), true) {
        Ok(inputs) => {
            let input_length = inputs.len();

            if input_length > max_input_length {
                Err(ValidationError::InputLength(
                    input_length,
                    max_input_length,
                ))
            } else {
                Ok((input_length, request))
            }
        },
        Err(err) => Err(ValidationError::Tokenizer(err.to_string())),
    }
}

type ValidationRequest = (
    GenerateRequest,
    oneshot::Sender<Result<(usize, GenerateRequest), ValidationError>>,
);

#[derive(Error, Debug)]
pub enum ValidationError {
    #[error("temperature must be strictly positive")]
    Temperature,
    #[error("top_p must be > 0.0 and <= 1.0")]
    TopP,
    #[error("top_k must be strictly positive")]
    TopK,
    #[error("max_new_tokens must be <= {0}")]
    MaxNewTokens(u32),
    #[error("inputs must have less than {1} tokens. Given: {0}")]
    InputLength(usize, usize),
    #[error("stop supports up to {0} stop sequences. Given: {1}")]
    StopSequence(usize, usize),
    #[error("tokenizer error {0}")]
    Tokenizer(String),
}

impl From<ValidationError> for (StatusCode, Json<ErrorResponse>) {
    fn from(err: ValidationError) -> Self {
        (
            StatusCode::UNPROCESSABLE_ENTITY,
            Json(ErrorResponse {
                error: err.to_string(),
            }),
        )
    }
}
v0.1.0 2022-10-18 13:19:03 +00:00			`/// Payload validation logic`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`use crate::{ErrorResponse, GenerateRequest};`
feat: Improve error handling 2022-10-17 12:59:00 +00:00			`use axum::http::StatusCode;`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`use axum::Json;`
feat: Improve error handling 2022-10-17 12:59:00 +00:00			`use thiserror::Error;`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`use tokenizers::tokenizer::Tokenizer;`
			`use tokio::sync::{mpsc, oneshot};`

feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`const MAX_MAX_NEW_TOKENS: u32 = 512;`
			`const MAX_STOP_SEQUENCES: usize = 4;`

v0.1.0 2022-10-18 13:19:03 +00:00			`/// Validation`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`#[derive(Debug, Clone)]`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`pub struct Validation {`
v0.1.0 2022-10-18 13:19:03 +00:00			`/// Channel to communicate with the background validation task`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`sender: mpsc::Sender<ValidationRequest>,`
			`}`

			`impl Validation {`
v0.1.0 2022-10-18 13:19:03 +00:00			`pub(crate) fn new(workers: usize, tokenizer: Tokenizer, max_input_length: usize) -> Self {`
			`// Crate channel`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`let (validation_sender, validation_receiver) = mpsc::channel(128);`

v0.1.0 2022-10-18 13:19:03 +00:00			`// Launch background validation task`
			`tokio::spawn(validation_task(`
			`workers,`
			`tokenizer,`
			`max_input_length,`
			`validation_receiver,`
			`));`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00
			`Self {`
			`sender: validation_sender,`
			`}`
			`}`

v0.1.0 2022-10-18 13:19:03 +00:00			`/// Validate a payload and get the number of tokens in the input`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`pub(crate) async fn validate(`
			`&self,`
			`request: GenerateRequest,`
			`) -> Result<(usize, GenerateRequest), ValidationError> {`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Create response channel`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`let (sender, receiver) = oneshot::channel();`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Send request to the background validation task`
			`// Unwrap is safe here`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`self.sender.send((request, sender)).await.unwrap();`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Await on response channel`
			`// Unwrap is safe here`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`receiver.await.unwrap()`
			`}`
			`}`

v0.1.0 2022-10-18 13:19:03 +00:00			`/// Validation task`
			`/// Load balance the validation requests between multiple validation workers`
			`async fn validation_task(`
			`workers: usize,`
			`tokenizer: Tokenizer,`
			`max_input_length: usize,`
			`mut receiver: mpsc::Receiver<ValidationRequest>,`
			`) {`
			`let mut workers_senders = Vec::with_capacity(workers);`

			`// Create workers`
			`for _ in 0..workers {`
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`let tokenizer_clone: Tokenizer = tokenizer.clone().into();`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Create channel to communicate with worker`
			`let (worker_sender, worker_receiver) = mpsc::channel(workers);`
			`workers_senders.push(worker_sender);`

			`// Spawn worker`
			`tokio::task::spawn_blocking(move \|\| {`
			`validation_worker(tokenizer_clone, max_input_length, worker_receiver)`
			`});`
			`}`

			`loop {`
			`// Load balance requests between workers`
			`for sender in workers_senders.iter() {`
			`if let Some(validation_request) = receiver.recv().await {`
			`sender.send(validation_request).await.unwrap();`
			`} else {`
			`return;`
			`}`
			`}`
			`}`
			`}`

			`/// Check the parameters inside the payload and get the number of tokens inside the input using`
			`/// the tokenizer`
			`fn validation_worker(`
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`tokenizer: Tokenizer,`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_input_length: usize,`
			`mut receiver: mpsc::Receiver<ValidationRequest>,`
			`) {`
			`// Loop over requests`
			`while let Some((request, response_tx)) = receiver.blocking_recv() {`
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`response_tx.send(validate(request, &tokenizer, max_input_length)).unwrap_or(())`
			`}`
			`}`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`fn validate(`
			`request: GenerateRequest,`
			`tokenizer: &Tokenizer,`
			`max_input_length: usize,`
			`) -> Result<(usize, GenerateRequest), ValidationError> {`
			`if request.parameters.temperature <= 0.0 {`
			`return Err(ValidationError::Temperature);`
			`}`
			`if request.parameters.top_p <= 0.0 \|\| request.parameters.top_p > 1.0 {`
			`return Err(ValidationError::TopP);`
			`}`
			`if request.parameters.top_k < 0 {`
			`return Err(ValidationError::TopK);`
			`}`
			`if request.parameters.max_new_tokens > MAX_MAX_NEW_TOKENS {`
			`return Err(ValidationError::MaxNewTokens(MAX_MAX_NEW_TOKENS));`
			`}`
			`if request.parameters.stop.len() > MAX_STOP_SEQUENCES {`
			`return Err(ValidationError::StopSequence(`
			`MAX_STOP_SEQUENCES, request.parameters.stop.len(),`
			`))`
			`}`

			`// Get the number of tokens in the input`
			`match tokenizer.encode(request.inputs.clone(), true) {`
			`Ok(inputs) => {`
			`let input_length = inputs.len();`

			`if input_length > max_input_length {`
			`Err(ValidationError::InputLength(`
			`input_length,`
			`max_input_length,`
			`))`
			`} else {`
			`Ok((input_length, request))`
fix(router): Handle tokenizer errors 2022-11-14 16:15:19 +00:00			`}`
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`},`
			`Err(err) => Err(ValidationError::Tokenizer(err.to_string())),`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`}`
			`}`
v0.1.0 2022-10-18 13:19:03 +00:00
			`type ValidationRequest = (`
			`GenerateRequest,`
			`oneshot::Sender<Result<(usize, GenerateRequest), ValidationError>>,`
			`);`

			`#[derive(Error, Debug)]`
			`pub enum ValidationError {`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`#[error("temperature must be strictly positive")]`
v0.1.0 2022-10-18 13:19:03 +00:00			`Temperature,`
fix(batching): Avoid theoretical hang in batcher loop (#5) - Avoid theoretical hang in batcher loop - Avoid a couple of clones in the router generate method - Keep attention mask tensors as integers - Remove num_heads attribute Co-authored-by: OlivierDehaene <Olivier.dehaene@gmail.com> 2022-12-05 09:10:59 +00:00			`#[error("top_p must be > 0.0 and <= 1.0")]`
v0.1.0 2022-10-18 13:19:03 +00:00			`TopP,`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`#[error("top_k must be strictly positive")]`
v0.1.0 2022-10-18 13:19:03 +00:00			`TopK,`
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`#[error("max_new_tokens must be <= {0}")]`
			`MaxNewTokens(u32),`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`#[error("inputs must have less than {1} tokens. Given: {0}")]`
fix(validation): Fix error messages 2022-10-21 08:59:15 +00:00			`InputLength(usize, usize),`
feat(router): Add const parameters to validation logic (#15) I noticed some opportunity to collapse some of the logic, in case you are interested. 2023-01-03 09:41:22 +00:00			`#[error("stop supports up to {0} stop sequences. Given: {1}")]`
			`StopSequence(usize, usize),`
fix(router): Handle tokenizer errors 2022-11-14 16:15:19 +00:00			`#[error("tokenizer error {0}")]`
			`Tokenizer(String),`
v0.1.0 2022-10-18 13:19:03 +00:00			`}`

feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`impl From<ValidationError> for (StatusCode, Json<ErrorResponse>) {`
v0.1.0 2022-10-18 13:19:03 +00:00			`fn from(err: ValidationError) -> Self {`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`(`
fix(router): Fix HTTP status codes 2022-11-14 13:34:15 +00:00			`StatusCode::UNPROCESSABLE_ENTITY,`
feat(server): Support bitsandbytes 2022-10-27 12:25:29 +00:00			`Json(ErrorResponse {`
			`error: err.to_string(),`
			`}),`
			`)`
v0.1.0 2022-10-18 13:19:03 +00:00			`}`
			`}`