text-generation-inference/router/src/main.rs

/// Text Generation Inference webserver entrypoint
use axum::http::HeaderValue;
use clap::Parser;
use opentelemetry::sdk::propagation::TraceContextPropagator;
use opentelemetry::sdk::trace;
use opentelemetry::sdk::trace::Sampler;
use opentelemetry::sdk::Resource;
use opentelemetry::{global, KeyValue};
use opentelemetry_otlp::WithExportConfig;
use std::net::{IpAddr, Ipv4Addr, SocketAddr};
use std::path::Path;
use text_generation_client::ShardedClient;
use text_generation_router::{server, ModelInfo};
use tokenizers::{FromPretrainedParameters, Tokenizer};
use tower_http::cors::AllowOrigin;
use tracing_subscriber::layer::SubscriberExt;
use tracing_subscriber::util::SubscriberInitExt;
use tracing_subscriber::{EnvFilter, Layer};

/// App Configuration
#[derive(Parser, Debug)]
#[clap(author, version, about, long_about = None)]
struct Args {
    #[clap(default_value = "128", long, env)]
    max_concurrent_requests: usize,
    #[clap(default_value = "2", long, env)]
    max_best_of: usize,
    #[clap(default_value = "4", long, env)]
    max_stop_sequences: usize,
    #[clap(default_value = "1000", long, env)]
    max_input_length: usize,
    #[clap(default_value = "1512", long, env)]
    max_total_tokens: usize,
    #[clap(default_value = "32", long, env)]
    max_batch_size: usize,
    #[clap(default_value = "20", long, env)]
    max_waiting_tokens: usize,
    #[clap(default_value = "3000", long, short, env)]
    port: u16,
    #[clap(default_value = "/tmp/text-generation-server-0", long, env)]
    master_shard_uds_path: String,
    #[clap(default_value = "bigscience/bloom", long, env)]
    tokenizer_name: String,
    #[clap(default_value = "main", long, env)]
    revision: String,
    #[clap(default_value = "2", long, env)]
    validation_workers: usize,
    #[clap(long, env)]
    json_output: bool,
    #[clap(long, env)]
    otlp_endpoint: Option<String>,
    #[clap(long, env)]
    cors_allow_origin: Option<Vec<String>>,
}

fn main() -> Result<(), std::io::Error> {
    // Get args
    let args = Args::parse();
    // Pattern match configuration
    let Args {
        max_concurrent_requests,
        max_best_of,
        max_stop_sequences,
        max_input_length,
        max_total_tokens,
        max_batch_size,
        max_waiting_tokens,
        port,
        master_shard_uds_path,
        tokenizer_name,
        revision,
        validation_workers,
        json_output,
        otlp_endpoint,
        cors_allow_origin,
    } = args;

    if validation_workers == 0 {
        panic!("validation_workers must be > 0");
    }

    // CORS allowed origins
    // map to go inside the option and then map to parse from String to HeaderValue
    // Finally, convert to AllowOrigin
    let cors_allow_origin: Option<AllowOrigin> = cors_allow_origin.map(|cors_allow_origin| {
        AllowOrigin::list(
            cors_allow_origin
                .iter()
                .map(|origin| origin.parse::<HeaderValue>().unwrap()),
        )
    });

    // Parse Huggingface hub token
    let authorization_token = std::env::var("HUGGING_FACE_HUB_TOKEN").ok();

    // Tokenizer instance
    // This will only be used to validate payloads
    let local_path = Path::new(&tokenizer_name);
    let local_model = local_path.exists() && local_path.is_dir();
    let tokenizer = if local_model {
        // Load local tokenizer
        Tokenizer::from_file(local_path.join("tokenizer.json")).ok()
    } else {
        // Download and instantiate tokenizer
        // We need to download it outside of the Tokio runtime
        let params = FromPretrainedParameters {
            revision: revision.clone(),
            auth_token: authorization_token.clone(),
            ..Default::default()
        };
        Tokenizer::from_pretrained(tokenizer_name.clone(), Some(params)).ok()
    };

    // Launch Tokio runtime
    tokio::runtime::Builder::new_multi_thread()
        .enable_all()
        .build()
        .unwrap()
        .block_on(async {
            init_logging(otlp_endpoint, json_output);

            if tokenizer.is_none() {
                tracing::warn!(
                    "Could not find a fast tokenizer implementation for {tokenizer_name}"
                );
                tracing::warn!("Rust input length validation and truncation is disabled");
            }

            // Get Model info
            let model_info = match local_model {
                true => ModelInfo {
                    model_id: tokenizer_name.clone(),
                    sha: None,
                    pipeline_tag: None,
                },
                false => get_model_info(&tokenizer_name, &revision, authorization_token).await,
            };

            // if pipeline-tag == text-generation we default to return_full_text = true
            let compat_return_full_text = match &model_info.pipeline_tag {
                None => {
                    tracing::warn!("no pipeline tag found for model {tokenizer_name}");
                    false
                }
                Some(pipeline_tag) => pipeline_tag.as_str() == "text-generation",
            };

            // Instantiate sharded client from the master unix socket
            let mut sharded_client = ShardedClient::connect_uds(master_shard_uds_path)
                .await
                .expect("Could not connect to server");
            // Clear the cache; useful if the webserver rebooted
            sharded_client
                .clear_cache(None)
                .await
                .expect("Unable to clear cache");
            tracing::info!("Connected");

            // Binds on localhost
            let addr = SocketAddr::new(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)), port);

            // Run server
            server::run(
                model_info,
                compat_return_full_text,
                max_concurrent_requests,
                max_best_of,
                max_stop_sequences,
                max_input_length,
                max_total_tokens,
                max_batch_size,
                max_waiting_tokens,
                sharded_client,
                tokenizer,
                validation_workers,
                addr,
                cors_allow_origin,
            )
            .await;
            Ok(())
        })
}

/// Init logging using env variables LOG_LEVEL and LOG_FORMAT:
///     - otlp_endpoint is an optional URL to an Open Telemetry collector
///     - LOG_LEVEL may be TRACE, DEBUG, INFO, WARN or ERROR (default to INFO)
///     - LOG_FORMAT may be TEXT or JSON (default to TEXT)
fn init_logging(otlp_endpoint: Option<String>, json_output: bool) {
    let mut layers = Vec::new();

    // STDOUT/STDERR layer
    let fmt_layer = tracing_subscriber::fmt::layer()
        .with_file(true)
        .with_line_number(true);

    let fmt_layer = match json_output {
        true => fmt_layer.json().flatten_event(true).boxed(),
        false => fmt_layer.boxed(),
    };
    layers.push(fmt_layer);

    // OpenTelemetry tracing layer
    if let Some(otlp_endpoint) = otlp_endpoint {
        global::set_text_map_propagator(TraceContextPropagator::new());

        let tracer = opentelemetry_otlp::new_pipeline()
            .tracing()
            .with_exporter(
                opentelemetry_otlp::new_exporter()
                    .tonic()
                    .with_endpoint(otlp_endpoint),
            )
            .with_trace_config(
                trace::config()
                    .with_resource(Resource::new(vec![KeyValue::new(
                        "service.name",
                        "text-generation-inference.router",
                    )]))
                    .with_sampler(Sampler::AlwaysOn),
            )
            .install_batch(opentelemetry::runtime::Tokio);

        if let Ok(tracer) = tracer {
            layers.push(tracing_opentelemetry::layer().with_tracer(tracer).boxed());
            axum_tracing_opentelemetry::init_propagator().unwrap();
        };
    }

    // Filter events with LOG_LEVEL
    let env_filter =
        EnvFilter::try_from_env("LOG_LEVEL").unwrap_or_else(|_| EnvFilter::new("info"));

    tracing_subscriber::registry()
        .with(env_filter)
        .with(layers)
        .init();
}

/// get model info from the Huggingface Hub
pub async fn get_model_info(model_id: &str, revision: &str, token: Option<String>) -> ModelInfo {
    let client = reqwest::Client::new();
    let mut builder = client.get(format!(
        "https://huggingface.co/api/models/{model_id}/revision/{revision}"
    ));
    if let Some(token) = token {
        builder = builder.bearer_auth(token);
    }

    let model_info = builder
        .send()
        .await
        .expect("Could not connect to hf.co")
        .text()
        .await
        .expect("error when retrieving model info from hf.co");
    serde_json::from_str(&model_info).expect("unable to parse model info")
}
feat: add distributed tracing (#62) 2023-02-13 12:02:45 +00:00			`/// Text Generation Inference webserver entrypoint`
feat(router): add cors allow origin options (#73) 2023-02-17 17:22:00 +00:00			`use axum::http::HeaderValue;`
v0.1.0 2022-10-18 13:19:03 +00:00			`use clap::Parser;`
feat: add distributed tracing (#62) 2023-02-13 12:02:45 +00:00			`use opentelemetry::sdk::propagation::TraceContextPropagator;`
			`use opentelemetry::sdk::trace;`
			`use opentelemetry::sdk::trace::Sampler;`
			`use opentelemetry::sdk::Resource;`
			`use opentelemetry::{global, KeyValue};`
			`use opentelemetry_otlp::WithExportConfig;`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`use std::net::{IpAddr, Ipv4Addr, SocketAddr};`
feat: allow local models (#101) closes #99 2023-03-06 13:39:36 +00:00			`use std::path::Path;`
feat(server): Support all AutoModelForCausalLM on a best effort basis 2022-10-28 17:24:00 +00:00			`use text_generation_client::ShardedClient;`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`use text_generation_router::{server, ModelInfo};`
			`use tokenizers::{FromPretrainedParameters, Tokenizer};`
feat(router): add cors allow origin options (#73) 2023-02-17 17:22:00 +00:00			`use tower_http::cors::AllowOrigin;`
feat: add distributed tracing (#62) 2023-02-13 12:02:45 +00:00			`use tracing_subscriber::layer::SubscriberExt;`
			`use tracing_subscriber::util::SubscriberInitExt;`
			`use tracing_subscriber::{EnvFilter, Layer};`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00
			`/// App Configuration`
			`#[derive(Parser, Debug)]`
			`#[clap(author, version, about, long_about = None)]`
			`struct Args {`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "128", long, env)]`
			`max_concurrent_requests: usize,`
feat(router): add best_of parameter (#117) 2023-03-09 14:30:54 +00:00			`#[clap(default_value = "2", long, env)]`
			`max_best_of: usize,`
feat(router): add max_total_tokens and empty_input validation (#68) closes #65 2023-02-15 20:56:59 +00:00			`#[clap(default_value = "4", long, env)]`
			`max_stop_sequences: usize,`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "1000", long, env)]`
			`max_input_length: usize,`
feat(router): add max_total_tokens and empty_input validation (#68) closes #65 2023-02-15 20:56:59 +00:00			`#[clap(default_value = "1512", long, env)]`
			`max_total_tokens: usize,`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "32", long, env)]`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`max_batch_size: usize,`
feat(router): Add max_waiting_tokens 2022-10-21 14:40:05 +00:00			`#[clap(default_value = "20", long, env)]`
			`max_waiting_tokens: usize,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`#[clap(default_value = "3000", long, short, env)]`
			`port: u16,`
feat(router): make router input validation optional (#164) 2023-04-09 18:22:27 +00:00			`#[clap(default_value = "/tmp/text-generation-server-0", long, env)]`
v0.1.0 2022-10-18 13:19:03 +00:00			`master_shard_uds_path: String,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`#[clap(default_value = "bigscience/bloom", long, env)]`
			`tokenizer_name: String,`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`#[clap(default_value = "main", long, env)]`
			`revision: String,`
v0.1.0 2022-10-18 13:19:03 +00:00			`#[clap(default_value = "2", long, env)]`
			`validation_workers: usize,`
feat: Use json formatter by default in docker image 2022-11-02 16:29:56 +00:00			`#[clap(long, env)]`
			`json_output: bool,`
feat: add distributed tracing (#62) 2023-02-13 12:02:45 +00:00			`#[clap(long, env)]`
			`otlp_endpoint: Option<String>,`
feat(router): add cors allow origin options (#73) 2023-02-17 17:22:00 +00:00			`#[clap(long, env)]`
			`cors_allow_origin: Option<Vec<String>>,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`}`
Init 2022-10-08 10:30:12 +00:00
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`fn main() -> Result<(), std::io::Error> {`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`// Get args`
			`let args = Args::parse();`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Pattern match configuration`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`let Args {`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_concurrent_requests,`
feat(router): add best_of parameter (#117) 2023-03-09 14:30:54 +00:00			`max_best_of,`
feat(router): add max_total_tokens and empty_input validation (#68) closes #65 2023-02-15 20:56:59 +00:00			`max_stop_sequences,`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_input_length,`
feat(router): add max_total_tokens and empty_input validation (#68) closes #65 2023-02-15 20:56:59 +00:00			`max_total_tokens,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`max_batch_size,`
feat(router): Add max_waiting_tokens 2022-10-21 14:40:05 +00:00			`max_waiting_tokens,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`port,`
v0.1.0 2022-10-18 13:19:03 +00:00			`master_shard_uds_path,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`tokenizer_name,`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`revision,`
v0.1.0 2022-10-18 13:19:03 +00:00			`validation_workers,`
feat: Use json formatter by default in docker image 2022-11-02 16:29:56 +00:00			`json_output,`
feat: add distributed tracing (#62) 2023-02-13 12:02:45 +00:00			`otlp_endpoint,`
feat(router): add cors allow origin options (#73) 2023-02-17 17:22:00 +00:00			`cors_allow_origin,`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`} = args;`

feat: Use json formatter by default in docker image 2022-11-02 16:29:56 +00:00			`if validation_workers == 0 {`
v0.1.0 2022-10-18 13:19:03 +00:00			`panic!("validation_workers must be > 0");`
			`}`

feat(router): add cors allow origin options (#73) 2023-02-17 17:22:00 +00:00			`// CORS allowed origins`
			`// map to go inside the option and then map to parse from String to HeaderValue`
			`// Finally, convert to AllowOrigin`
			`let cors_allow_origin: Option<AllowOrigin> = cors_allow_origin.map(\|cors_allow_origin\| {`
			`AllowOrigin::list(`
			`cors_allow_origin`
			`.iter()`
			`.map(\|origin\| origin.parse::<HeaderValue>().unwrap()),`
			`)`
			`});`

fix(router): add auth token to get model info (#207) 2023-04-19 18:06:06 +00:00			`// Parse Huggingface hub token`
			`let authorization_token = std::env::var("HUGGING_FACE_HUB_TOKEN").ok();`

feat: allow local models (#101) closes #99 2023-03-06 13:39:36 +00:00			`// Tokenizer instance`
v0.1.0 2022-10-18 13:19:03 +00:00			`// This will only be used to validate payloads`
feat: allow local models (#101) closes #99 2023-03-06 13:39:36 +00:00			`let local_path = Path::new(&tokenizer_name);`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`let local_model = local_path.exists() && local_path.is_dir();`
			`let tokenizer = if local_model {`
			`// Load local tokenizer`
			`Tokenizer::from_file(local_path.join("tokenizer.json")).ok()`
			`} else {`
			`// Download and instantiate tokenizer`
			`// We need to download it outside of the Tokio runtime`
			`let params = FromPretrainedParameters {`
			`revision: revision.clone(),`
fix(router): add auth token to get model info (#207) 2023-04-19 18:06:06 +00:00			`auth_token: authorization_token.clone(),`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`..Default::default()`
feat: allow local models (#101) closes #99 2023-03-06 13:39:36 +00:00			`};`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`Tokenizer::from_pretrained(tokenizer_name.clone(), Some(params)).ok()`
			`};`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Launch Tokio runtime`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`tokio::runtime::Builder::new_multi_thread()`
			`.enable_all()`
			`.build()`
			`.unwrap()`
			`.block_on(async {`
v0.4.3 (#152) 2023-03-30 15:28:14 +00:00			`init_logging(otlp_endpoint, json_output);`

feat(router): make router input validation optional (#164) 2023-04-09 18:22:27 +00:00			`if tokenizer.is_none() {`
			`tracing::warn!(`
			`"Could not find a fast tokenizer implementation for {tokenizer_name}"`
			`);`
			`tracing::warn!("Rust input length validation and truncation is disabled");`
			`}`

feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`// Get Model info`
			`let model_info = match local_model {`
			`true => ModelInfo {`
			`model_id: tokenizer_name.clone(),`
			`sha: None,`
			`pipeline_tag: None,`
			`},`
fix(router): add auth token to get model info (#207) 2023-04-19 18:06:06 +00:00			`false => get_model_info(&tokenizer_name, &revision, authorization_token).await,`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`};`
feat(router): ask hf.co for pipelinetag to decide on compat_return_full_text (#89) 2023-02-28 09:19:32 +00:00
			`// if pipeline-tag == text-generation we default to return_full_text = true`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`let compat_return_full_text = match &model_info.pipeline_tag {`
feat(router): ask hf.co for pipelinetag to decide on compat_return_full_text (#89) 2023-02-28 09:19:32 +00:00			`None => {`
			`tracing::warn!("no pipeline tag found for model {tokenizer_name}");`
			`false`
			`}`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`Some(pipeline_tag) => pipeline_tag.as_str() == "text-generation",`
feat(router): ask hf.co for pipelinetag to decide on compat_return_full_text (#89) 2023-02-28 09:19:32 +00:00			`};`

v0.1.0 2022-10-18 13:19:03 +00:00			`// Instantiate sharded client from the master unix socket`
feat(client): Simplify sharded logic 2022-10-22 21:40:05 +00:00			`let mut sharded_client = ShardedClient::connect_uds(master_shard_uds_path)`
feat: Improve error handling 2022-10-17 12:59:00 +00:00			`.await`
			`.expect("Could not connect to server");`
v0.1.0 2022-10-18 13:19:03 +00:00			`// Clear the cache; useful if the webserver rebooted`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`sharded_client`
feat(server): clear cache on error (#143) 2023-03-28 09:29:35 +00:00			`.clear_cache(None)`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`.await`
			`.expect("Unable to clear cache");`
			`tracing::info!("Connected");`
Init 2022-10-08 10:30:12 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Binds on localhost`
feat: Add arguments to CLI 2022-10-17 16:27:33 +00:00			`let addr = SocketAddr::new(IpAddr::V4(Ipv4Addr::new(0, 0, 0, 0)), port);`
Init 2022-10-08 10:30:12 +00:00
v0.1.0 2022-10-18 13:19:03 +00:00			`// Run server`
			`server::run(`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`model_info,`
feat(router): ask hf.co for pipelinetag to decide on compat_return_full_text (#89) 2023-02-28 09:19:32 +00:00			`compat_return_full_text,`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_concurrent_requests,`
feat(router): add best_of parameter (#117) 2023-03-09 14:30:54 +00:00			`max_best_of,`
feat(router): add max_total_tokens and empty_input validation (#68) closes #65 2023-02-15 20:56:59 +00:00			`max_stop_sequences,`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_input_length,`
feat(router): add max_total_tokens and empty_input validation (#68) closes #65 2023-02-15 20:56:59 +00:00			`max_total_tokens,`
v0.1.0 2022-10-18 13:19:03 +00:00			`max_batch_size,`
feat(router): Add max_waiting_tokens 2022-10-21 14:40:05 +00:00			`max_waiting_tokens,`
v0.1.0 2022-10-18 13:19:03 +00:00			`sharded_client,`
			`tokenizer,`
			`validation_workers,`
			`addr,`
feat(router): add cors allow origin options (#73) 2023-02-17 17:22:00 +00:00			`cors_allow_origin,`
v0.1.0 2022-10-18 13:19:03 +00:00			`)`
			`.await;`
Use axum 2022-10-11 16:14:39 +00:00			`Ok(())`
Refactored gRPC interface Added validation logic 2022-10-11 14:50:54 +00:00			`})`
Init 2022-10-08 10:30:12 +00:00			`}`
feat: add distributed tracing (#62) 2023-02-13 12:02:45 +00:00
			`/// Init logging using env variables LOG_LEVEL and LOG_FORMAT:`
			`/// - otlp_endpoint is an optional URL to an Open Telemetry collector`
			`/// - LOG_LEVEL may be TRACE, DEBUG, INFO, WARN or ERROR (default to INFO)`
			`/// - LOG_FORMAT may be TEXT or JSON (default to TEXT)`
			`fn init_logging(otlp_endpoint: Option<String>, json_output: bool) {`
			`let mut layers = Vec::new();`

			`// STDOUT/STDERR layer`
			`let fmt_layer = tracing_subscriber::fmt::layer()`
			`.with_file(true)`
			`.with_line_number(true);`

			`let fmt_layer = match json_output {`
			`true => fmt_layer.json().flatten_event(true).boxed(),`
			`false => fmt_layer.boxed(),`
			`};`
			`layers.push(fmt_layer);`

			`// OpenTelemetry tracing layer`
			`if let Some(otlp_endpoint) = otlp_endpoint {`
			`global::set_text_map_propagator(TraceContextPropagator::new());`

			`let tracer = opentelemetry_otlp::new_pipeline()`
			`.tracing()`
			`.with_exporter(`
			`opentelemetry_otlp::new_exporter()`
			`.tonic()`
			`.with_endpoint(otlp_endpoint),`
			`)`
			`.with_trace_config(`
			`trace::config()`
			`.with_resource(Resource::new(vec![KeyValue::new(`
			`"service.name",`
			`"text-generation-inference.router",`
			`)]))`
			`.with_sampler(Sampler::AlwaysOn),`
			`)`
			`.install_batch(opentelemetry::runtime::Tokio);`

			`if let Ok(tracer) = tracer {`
			`layers.push(tracing_opentelemetry::layer().with_tracer(tracer).boxed());`
			`axum_tracing_opentelemetry::init_propagator().unwrap();`
			`};`
			`}`

			`// Filter events with LOG_LEVEL`
			`let env_filter =`
			`EnvFilter::try_from_env("LOG_LEVEL").unwrap_or_else(\|_\| EnvFilter::new("info"));`

			`tracing_subscriber::registry()`
			`.with(env_filter)`
			`.with(layers)`
			`.init();`
			`}`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00
			`/// get model info from the Huggingface Hub`
fix(router): add auth token to get model info (#207) 2023-04-19 18:06:06 +00:00			`pub async fn get_model_info(model_id: &str, revision: &str, token: Option<String>) -> ModelInfo {`
			`let client = reqwest::Client::new();`
			`let mut builder = client.get(format!(`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`"https://huggingface.co/api/models/{model_id}/revision/{revision}"`
fix(router): add auth token to get model info (#207) 2023-04-19 18:06:06 +00:00			`));`
			`if let Some(token) = token {`
			`builder = builder.bearer_auth(token);`
			`}`

			`let model_info = builder`
			`.send()`
			`.await`
			`.expect("Could not connect to hf.co")`
			`.text()`
			`.await`
			`.expect("error when retrieving model info from hf.co");`
feat(router): add info route (#196) close #125 2023-04-18 14:16:06 +00:00			`serde_json::from_str(&model_info).expect("unable to parse model info")`
			`}`