text-generation-inference/router/src/main.rs

/// Text Generation Inference webserver entrypoint
use bloom_inference_client::ShardedClient;
use clap::Parser;
use std::net::{IpAddr, Ipv4Addr, SocketAddr};
use std::time::Duration;
use text_generation_router::server;
use tokenizers::Tokenizer;

/// App Configuration
#[derive(Parser, Debug)]
#[clap(author, version, about, long_about = None)]
struct Args {
    #[clap(default_value = "128", long, env)]
    max_concurrent_requests: usize,
    #[clap(default_value = "1000", long, env)]
    max_input_length: usize,
    #[clap(default_value = "32", long, env)]
    max_batch_size: usize,
    #[clap(default_value = "5", long, env)]
    max_waiting_time: u64,
    #[clap(default_value = "3000", long, short, env)]
    port: u16,
    #[clap(default_value = "/tmp/bloom-inference-0", long, env)]
    master_shard_uds_path: String,
    #[clap(default_value = "bigscience/bloom", long, env)]
    tokenizer_name: String,
    #[clap(default_value = "2", long, env)]
    validation_workers: usize,
}

fn main() -> Result<(), std::io::Error> {
    // Get args
    let args = Args::parse();
    // Pattern match configuration
    let Args {
        max_concurrent_requests,
        max_input_length,
        max_batch_size,
        max_waiting_time,
        port,
        master_shard_uds_path,
        tokenizer_name,
        validation_workers,
    } = args;

    if validation_workers == 1 {
        panic!("validation_workers must be > 0");
    }

    let max_waiting_time = Duration::from_secs(max_waiting_time);

    // Download and instantiate tokenizer
    // This will only be used to validate payloads
    //
    // We need to download it outside of the Tokio runtime
    let tokenizer = Tokenizer::from_pretrained(tokenizer_name, None).unwrap();

    // Launch Tokio runtime
    tokio::runtime::Builder::new_multi_thread()
        .enable_all()
        .build()
        .unwrap()
        .block_on(async {
            tracing_subscriber::fmt::init();

            // Instantiate sharded client from the master unix socket
            let sharded_client = ShardedClient::connect_uds(master_shard_uds_path)
                .await
                .expect("Could not connect to server");
            // Clear the cache; useful if the webserver rebooted
            sharded_client
                .clear_cache()
                .await
                .expect("Unable to clear cache");
            tracing::info!("Connected");

            // Binds on localhost
            let addr = SocketAddr::new(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)), port);

            // Run server
            server::run(
                max_concurrent_requests,
                max_input_length,
                max_batch_size,
                max_waiting_time,
                sharded_client,
                tokenizer,
                validation_workers,
                addr,
            )
            .await;
            Ok(())
        })
}
v0.1.0 2022-10-18 13:19:03 +00:00			`/// Text Generation Inference webserver entrypoint`
Init 2022-10-08 10:30:12 +00:00			`use bloom_inference_client::ShardedClient;`
v0.1.0 2022-10-18 13:19:03 +00:00			`use clap::Parser;`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`use std::net::{IpAddr, Ipv4Addr, SocketAddr};`
v0.1.0 2022-10-18 13:19:03 +00:00			`use std::time::Duration;`
feat: Improve error handling 2022-10-17 12:59:00 +00:00			`use text_generation_router::server;`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`use tokenizers::Tokenizer;`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00
			`/// App Configuration`
			`#[derive(Parser, Debug)]`
			`#[clap(author, version, about, long_about = None)]`
			`struct Args {`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "128", long, env)]`
			`max_concurrent_requests: usize,`
			`#[clap(default_value = "1000", long, env)]`
			`max_input_length: usize,`
			`#[clap(default_value = "32", long, env)]`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`max_batch_size: usize,`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "5", long, env)]`
			`max_waiting_time: u64,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`#[clap(default_value = "3000", long, short, env)]`
			`port: u16,`
			`#[clap(default_value = "/tmp/bloom-inference-0", long, env)]`
v0.1.0 2022-10-18 13:19:03 +00:00			`master_shard_uds_path: String,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`#[clap(default_value = "bigscience/bloom", long, env)]`
			`tokenizer_name: String,`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "2", long, env)]`
			`validation_workers: usize,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`}`
Init 2022-10-08 10:30:12 +00:00
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`fn main() -> Result<(), std::io::Error> {`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`// Get args`
			`let args = Args::parse();`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Pattern match configuration`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`let Args {`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_concurrent_requests,`
			`max_input_length,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`max_batch_size,`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_waiting_time,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`port,`
v0.1.0 2022-10-18 13:19:03 +00:00			`master_shard_uds_path,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`tokenizer_name,`
v0.1.0 2022-10-18 13:19:03 +00:00			`validation_workers,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`} = args;`

v0.1.0 2022-10-18 13:19:03 +00:00			`if validation_workers == 1 {`
			`panic!("validation_workers must be > 0");`
			`}`

			`let max_waiting_time = Duration::from_secs(max_waiting_time);`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Download and instantiate tokenizer`
			`// This will only be used to validate payloads`
			`//`
			`// We need to download it outside of the Tokio runtime`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`let tokenizer = Tokenizer::from_pretrained(tokenizer_name, None).unwrap();`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Launch Tokio runtime`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`tokio::runtime::Builder::new_multi_thread()`
			`.enable_all()`
			`.build()`
			`.unwrap()`
			`.block_on(async {`
			`tracing_subscriber::fmt::init();`
Init 2022-10-08 10:30:12 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Instantiate sharded client from the master unix socket`
			`let sharded_client = ShardedClient::connect_uds(master_shard_uds_path)`
feat: Improve error handling 2022-10-17 12:59:00 +00:00			`.await`
			`.expect("Could not connect to server");`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Clear the cache; useful if the webserver rebooted`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`sharded_client`
			`.clear_cache()`
			`.await`
			`.expect("Unable to clear cache");`
			`tracing::info!("Connected");`
Init 2022-10-08 10:30:12 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Binds on localhost`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`let addr = SocketAddr::new(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)), port);`
Init 2022-10-08 10:30:12 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Run server`
			`server::run(`
			`max_concurrent_requests,`
			`max_input_length,`
			`max_batch_size,`
			`max_waiting_time,`
			`sharded_client,`
			`tokenizer,`
			`validation_workers,`
			`addr,`
			`)`
			`.await;`
Use axum 2022-10-11 16:14:39 +00:00			`Ok(())`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`})`
Init 2022-10-08 10:30:12 +00:00			`}`