Handling potential lack of offsets (python tokenizer)

2025-09-11 20:34:54 +00:00 · 2024-09-17 16:56:19 +02:00 · 2024-09-17 16:56:19 +02:00 · 9d702bcde3
commit 9d702bcde3
parent 5ba7805f1c
1 changed files with 39 additions and 36 deletions
--- a/router/src/server.rs
+++ b/router/src/server.rs
@ -64,6 +64,42 @@ use tracing::{info_span, instrument, Instrument};
 use utoipa::OpenApi;
 use utoipa_swagger_ui::SwaggerUi;
 fn encoding_to_tokens(encoding: &tokenizers::Encoding, input: &str) -> Vec<SimpleToken> {
    let offsets = encoding.get_offsets();
    let input_ids = encoding.get_ids();
    if offsets.len() == input_ids.len() {
        encoding
            .get_ids()
            .iter()
            .zip(encoding.get_offsets())
            .map(|(&id, &(start, stop))| {
                let text = input
                    .chars()
                    .skip(start)
                    .take(stop - start)
                    .collect::<String>();
                SimpleToken {
                    id,
                    text,
                    start,
                    stop,
                }
            })
            .collect()
    } else {
        encoding
            .get_ids()
            .iter()
            .map(|&id| SimpleToken {
                id,
                text: "".to_string(),
                start: 0,
                stop: 0,
            })
            .collect()
    }
 }
 /// Generate tokens if `stream == false` or a stream of token if `stream == true`
 #[utoipa::path(
 post,
@ -161,24 +197,8 @@ async fn get_chat_tokenize(
    let generate_request: GenerateRequest = chat.try_into_generate(&infer)?.0;
    let input = generate_request.inputs.clone();
    let encoding = infer.tokenize(generate_request).await?;
-    let tokens: Vec<SimpleToken> = encoding
+
-        .get_ids()
+    let tokens = encoding_to_tokens(&encoding, &input);
        .iter()
        .zip(encoding.get_offsets())
        .map(|(&id, &(start, stop))| {
            let text = input
                .chars()
                .skip(start)
                .take(stop - start)
                .collect::<String>();
            SimpleToken {
                id,
                text,
                start,
                stop,
            }
        })
        .collect();
    let resp = ChatTokenizeResponse {
        tokenize_response: TokenizeResponse(tokens),
@ -1448,24 +1468,7 @@ async fn tokenize(
 ) -> Result<Json<TokenizeResponse>, (StatusCode, Json<ErrorResponse>)> {
    let input = req.inputs.clone();
    let encoding = infer.tokenize(req).await?;
-    let tokens: Vec<SimpleToken> = encoding
+    let tokens = encoding_to_tokens(&encoding, &input);
        .get_ids()
        .iter()
        .zip(encoding.get_offsets())
        .map(|(&id, &(start, stop))| {
            let text = input
                .chars()
                .skip(start)
                .take(stop - start)
                .collect::<String>();
            SimpleToken {
                id,
                text,
                start,
                stop,
            }
        })
        .collect();
    Ok(Json(TokenizeResponse(tokens)))
 }