fmt

2025-09-09 19:34:53 +00:00 · 2023-02-27 19:28:34 +01:00 · 2023-02-27 19:28:34 +01:00 · 51b029b089
commit 51b029b089
parent f3f9faca2f
2 changed files with 31 additions and 46 deletions
--- a/router/src/main.rs
+++ b/router/src/main.rs
@ -110,21 +110,12 @@ fn main() -> Result<(), std::io::Error> {
                serde_json::from_str(&model_info).expect("unable to parse model info");
            // if pipeline-tag == text-generation we return prompt + generated_text from the / route
-            let compat_return_full_text = match model_info["pipeline_tag"].as_str() {
+            let compat_return_full_text = match model_info.get("pipeline_tag") {
                None => {
                    tracing::warn!("no pipeline tag found for model {tokenizer_name}");
                    tracing::warn!("returning only generated_text from the compat route");
                    false
                }
-                Some(pipeline_tag) => {
+                Some(pipeline_tag) => pipeline_tag.as_str() == Some("text-generation"),
                    if pipeline_tag == "text-generation" {
                        tracing::info!("returning prompt + generated_text from the compat route");
                        true
                    } else {
                        tracing::info!("returning only generated_text from the compat route");
                        false
                    }
                }
            };
            // Instantiate sharded client from the master unix socket
--- a/router/src/server.rs
+++ b/router/src/server.rs
@ -33,21 +33,20 @@ async fn compat_generate(
    infer: Extension<Infer>,
    req: Json<CompatGenerateRequest>,
 ) -> Result<impl IntoResponse, (StatusCode, Json<ErrorResponse>)> {
    // switch on stream
    let mut req = req.0;
    // default return_full_text given the pipeline_tag
    if req.parameters.return_full_text.is_none() {
        req.parameters.return_full_text = Some(default_return_full_text.0)
    }
    // switch on stream
    if req.stream {
-        Ok(
+        Ok(generate_stream(infer, Json(req.into()))
            generate_stream(infer, Json(req.into()))
            .await
-                .into_response(),
+            .into_response())
        )
    } else {
-        let (headers, generation) =
+        let (headers, generation) = generate(infer, Json(req.into())).await?;
            generate(infer, Json(req.into())).await?;
        // wrap generation inside a Vec to match api-inference
        Ok((headers, Json(vec![generation.0])).into_response())
    }
@ -118,12 +117,7 @@ async fn generate(
    let start_time = Instant::now();
    let mut add_prompt = None;
-    if req
+    if req.0.parameters.return_full_text.unwrap_or(false) {
        .0
        .parameters
        .return_full_text
        .unwrap_or(false)
    {
        add_prompt = Some(req.0.inputs.clone());
    }