text-generation-inference

mirror of https://github.com/huggingface/text-generation-inference.git synced 2025-09-08 19:04:52 +00:00

Author	SHA1	Message	Date
Alvaro Moran	0f79162288	chore: prepare version 3.3.5 (#3314 ) * chore: prepare version 3.3.5 * black * neuron: black * Update hf-xet in uv lockfile * Attempt to fix API doc check failure Add `error_type` where missing. * Pin redocly version * Sync redocly with Nix for now --------- Co-authored-by: Daniël de Kok <me@danieldk.eu>	2025-09-02 15:35:42 +02:00
Alvaro Moran	8801ba12cf	Optimum neuron 0.3.0 (#3308 ) * chore(neuron): update to optimum-neuron 0.3.0 Dependencies were changed accordingly, because Neuron SDK was updated to v2.24. * test: sample is not deterministic Also modify the temperature in decode test to avoid granite early stopping. * test(neuron): adjust expectations after graph changes * test(neuron): use greedy for stop sequences --------- Co-authored-by: David Corvoysier <david@huggingface.co>	2025-08-26 11:07:47 +02:00
Wang, Yi	24c2bff659	Gaudi gptq gidx support (#3297 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-07-17 16:00:12 +02:00
Wang, Yi	ebb26f0ccd	[gaudi] Deepseek v2 mla and add ep to unquantized moe (#3287 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-07-07 11:29:39 +02:00
Wang, Yi	778b61c0da	[gaudi] Remove unnecessary reinitialize to HeterogeneousNextTokenChooser to make sampling output correct (#3284 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> Co-authored-by: regisss <15324346+regisss@users.noreply.github.com>	2025-07-03 10:03:16 +02:00
Wang, Yi	429dcd9c64	[gaudi] Gemma3 sliding window support (#3280 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-07-01 10:06:01 +02:00
Baptiste Colle	9f38d93051	Gaudi: add CI (#3160 ) Co-authored-by: Pauline Bailly-Masson <155966238+paulinebm@users.noreply.github.com>	2025-06-24 18:51:09 +02:00
Wang, Yi	719907410b	[gaudi] Refine rope memory, do not need to keep sin/cos cache per layer (#3274 )	2025-06-23 11:15:39 +02:00
David Corvoysier	238fbd4d50	Neuron backend fix and patch version 3.3.4 (#3273 ) * fix(neuron): wrong assertion when batch_size==1 * chore: prepare 3.3.4	2025-06-19 10:52:41 +02:00
Wang, Yi	14ee6e7804	[gaudi] gemma3 text and vlm model intial support. need to add sliding window support later (#3270 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-06-19 09:32:34 +02:00
regisss	f13e28c98d	[gaudi] Refine logging for Gaudi warmup (#3222 ) * Refine logging for Gaudi warmup * Make style * Make style 2 * Flash causal LM case * Add log_master & VLM cases * Black	2025-06-18 12:34:00 +02:00
Wang, Yi	0627983c17	[Gaudi] use pad_token_id to pad input id (#3268 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-06-17 09:07:25 +02:00
Yuan Wu	3752143b39	[Gaudi] Fix the integration-test issues (#3265 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-06-13 14:47:06 +02:00
Yuan Wu	ded4cb52ac	[Gaudi] Enable Qwen3_moe model (#3244 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-06-13 12:03:24 +02:00
Wang, Yi	a220e57f45	[gaudi] HuggingFaceM4/idefics2-8b issue fix (#3264 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-06-13 12:00:08 +02:00
Yuan Wu	e07056ab3f	[Gaudi] Remove optimum-habana (#3261 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-06-12 22:35:36 +02:00
Yuan Wu	25fdc5f03c	[gaudi] Move the _update_cos_sin_cache into get_cos_sin (#3254 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-06-12 22:31:11 +02:00
Wang, Yi	613b8dd647	[gaudi] Vlm rebase and issue fix in benchmark test (#3263 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-06-12 22:26:37 +02:00
Wang, Yi	839477670a	[gaudi] Perf optimization (#3256 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-06-11 15:00:21 +02:00
David Corvoysier	79183d1647	Bump neuron SDK version (#3260 ) * chore(neuron): bump version to 0.2.0 * refactor(neuron): use named parameters in inputs helpers This allows to hide the differences between the two backends in terms of input parameters. * refactor(neuron): remove obsolete code paths * fix(neuron): use neuron_config whenever possible * fix(neuron): use new cache import path * fix(neuron): neuron config is not stored in config anymore * fix(nxd): adapt model retrieval to new APIs * fix(generator): emulate greedy in sampling parameters When on-device sampling is enabled, we need to emulate the greedy behaviour using top-k=1, top-p=1, temperature=1. * test(neuron): update models and expectations * feat(neuron): support on-device sampling * fix(neuron): adapt entrypoint * tests(neuron): remove obsolete models * fix(neuron): adjust test expectations for llama on nxd	2025-06-10 17:56:25 +02:00
Yuan Wu	1ff9d185d5	Remove useless packages (#3253 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-06-03 13:42:29 +02:00
Yuan Wu	6b6e30a6f6	[gaudi] Fix the Llama-4-Maverick-17B-128E crash issue (#3246 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-05-29 11:38:44 +02:00
Yuan Wu	70217ac345	[Gaudi] Fix the OOM issue of Llama-4-Scout-17B-16E-Instruct (#3245 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-05-29 09:58:24 +02:00
Wang, Yi	f14044009a	fp8 compressed tensors w8a8 support for Gaudi backend (#3242 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-28 14:54:20 +02:00
Yuan Wu	1883a62a94	Add Qwen3 for Gaudi backend (#3229 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-05-23 08:58:35 +02:00
Wang, Yi	f08b44ade5	Upgrade to new vllm extension ops for Gaudi backend (fix issue in exponential bucketing) (#3239 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-22 15:29:16 +02:00
Wang, Yi	9e7e546923	Move input_ids to hpu and remove disposal of adapter_meta (#3237 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-22 09:21:31 +02:00
Wang, Yi	43b1b07fb9	Fix the crash in default ATTENTION path for Gaudi backend (#3235 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-20 14:02:32 +02:00
Wang, Yi	000e313a92	Refine warmup and upgrade to synapse AI 1.21.0 (#3234 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-20 10:22:43 +02:00
Wang, Yi	d658b5def3	Deepseek R1 for Gaudi backend (#3211 ) Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-19 16:36:39 +02:00
Yuan Wu	18cbecfb38	Enable Llama4 for Gaudi backend (#3223 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-05-15 14:35:37 +02:00
kaixuanliu	535ce23827	Adjust the `round_up_seq` logic in Gaudi backend (#3224 ) Signed-off-by: Liu, Kaixuan <kaixuan.liu@intel.com>	2025-05-12 09:58:43 +02:00
kaixuanliu	c94f415af4	Change HPU warmup logic: seq length should be with exponential growth (#3217 ) Signed-off-by: Liu, Kaixuan <kaixuan.liu@intel.com> Co-authored-by: regisss <15324346+regisss@users.noreply.github.com>	2025-05-10 15:41:18 +02:00
Wang, Yi	533eee50dc	forward and tokenize chooser use the same shape (#3196 ) * forward and tokenize chooser use the same shape concate or filter happened to cpu tensor to avoid dynamic shape in hpu Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * use hpu set seed Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> --------- Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-05-06 10:49:32 +02:00
regisss	f208ba6afc	Fix `HF_HUB_OFFLINE=1` for Gaudi backend (#3193 ) * Fix `HF_HUB_OFFLINE=1` for Gaudi backend * Fix HF cache default value in server.rs * Format	2025-05-06 10:47:53 +02:00
Wang, Yi	375802948d	Warmup gaudi backend (#3172 ) * clean cuda/rocm code in hpu backend, enable flat_hpu Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix TP in pageattn Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * adjust block table in hpu to improve performance Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * enable all the model. not testet yet Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * use tensor cache in hpu graph to avoid replay issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * add moe support, fix qwen/mistral/mixtral crash Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix phimoe issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * gpt_bigcode could also go pageattn Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * enable dbrx remove some unused code Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * multi-modality initial PR Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * adjust warmup and enable vlm Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix incorrect output in qwen2 idefics if hpu graph is used Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove unused quantization code and enable awq/gptq int4 Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix gptq issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * enable fp8 Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * warmup prefill remove model where pageattn is not used, set block table to None since it's not used Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * add warmup_decode Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * warmup decode Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove block_tables and prefill_cache_indices which will lead to dynamic shape Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix comment Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * missing gptj change... Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix some issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove torch.where to fix incorrect output in hpu graph model Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * LLM warmup logic Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * multi-modality warmup Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * optimize code Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * refine log and fix some issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix warmup issue for mllama Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * pingpong optimization Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * match the latest vllm_extension ops Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * work with the latest vllm extension ops Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove block_scales which is not needed anymore Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * improve performance Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * prefill bypass graph Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * pingpong optimization issue fix Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> --------- Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-04-24 09:57:08 +02:00
Mohit Sharma	02715dc53f	Add option to configure prometheus port (#3187 ) * add prometheus port * fix doc * add port for trtllm and llamacpp * Fixing format after rebase. --------- Co-authored-by: Nicolas Patry <patry.nicolas@protonmail.com>	2025-04-23 20:43:25 +05:30
Nicolas Patry	4645678ff0	Hotfix gaudi2 with newer transformers. (#3176 )	2025-04-15 12:39:28 +02:00
Nicolas Patry	ad765cd06b	Hotfixing gaudi deps. (#3174 )	2025-04-15 11:55:28 +02:00
Nicolas Patry	16b4b7974a	Upgrading the dependencies in Gaudi backend. (#3170 ) * Upgrading the dependencies in Gaudi backend. * Upgrading transformers version.	2025-04-15 11:49:06 +02:00
Nicolas Patry	449cee49ca	setuptools <= 70.0 is vulnerable: CVE-2024-6345 (#3171 )	2025-04-15 10:09:37 +02:00
Wang, Yi	d62c941c56	Gaudi: clean cuda/rocm code in hpu backend, enable flat_hpu (#3113 ) * clean cuda/rocm code in hpu backend, enable flat_hpu Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix TP in pageattn Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * adjust block table in hpu to improve performance Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * enable all the model. not testet yet Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * use tensor cache in hpu graph to avoid replay issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * add moe support, fix qwen/mistral/mixtral crash Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix phimoe issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * gpt_bigcode could also go pageattn Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * enable dbrx remove some unused code Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * multi-modality initial PR Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * adjust warmup and enable vlm Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix incorrect output in qwen2 idefics if hpu graph is used Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove unused quantization code and enable awq/gptq int4 Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix gptq issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * enable fp8 Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * warmup prefill remove model where pageattn is not used, set block table to None since it's not used Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * add warmup_decode Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * warmup decode Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove block_tables and prefill_cache_indices which will lead to dynamic shape Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix comment Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * missing gptj change... Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * fix some issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * remove torch.where to fix incorrect output in hpu graph model Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> * match the latest vllm_extension ops Signed-off-by: Wang, Yi A <yi.a.wang@intel.com> --------- Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-04-14 15:58:13 +02:00
Baptiste Colle	37104acd75	Gaudi: Add Integration Test for Gaudi Backend (#3142 ) * feat(gaudi): add integration test * feat(test): add more models to integration tests * remove debug comments * fix typos	2025-04-07 16:55:03 +02:00
Yuan Wu	3d059f91ab	Gaudi: Use exponential growth to replace BATCH_BUCKET_SIZE (#3131 ) * Gaudi: Use exponential growth to replace BATCH_BUCKET_SIZE Signed-off-by: yuanwu <yuan.wu@intel.com> * Remove debug modifications Signed-off-by: yuanwu <yuan.wu@intel.com> --------- Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-04-03 10:34:53 +02:00
Yuan Wu	f5f14dc660	Gaudi: Fix llava-next and mllama crash issue (#3127 ) Signed-off-by: yuanwu <yuan.wu@intel.com>	2025-03-25 15:08:15 +01:00
Baptiste Colle	8c2c348f3c	Gaudi: Sync TGI with the latest changes from the TGI-Gaudi fork (#3117 ) feat(gaudi): add all the changes from tgi-gaudi fork up to PR #289	2025-03-18 09:45:52 +01:00
Baptiste Colle	27ed848676	Release of Gaudi Backend for TGI (#3091 ) * feat(gaudi): release ready (docs, docker image and vlm ready) * fix(gaudi): add default argument for the dockerfile * fix(gaudi): remove use of latest for gaudi docker image + redid gaudi benchmarking section to include best practices	2025-03-13 10:56:01 +01:00
David Corvoysier	f01dc9e743	Update neuron backend (#3098 ) * feat(neuron): use AWS Neuron SDK 2.21.1 * feat(neuron): bump optimum-neuron version * feat(neuron): tag latest image for local tests * test(neuron): simplify sampling test	2025-03-12 09:53:15 +01:00
Adrien Gallouët	094975c3a8	Update the llamacpp backend (#3022 ) * Build faster Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Make --model-gguf optional Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Bump llama.cpp Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Enable mmap, offload_kqv & flash_attention by default Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update doc Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Better error message Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update doc Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update installed packages Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Save gguf in models/MODEL_ID/model.gguf Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Fix build with Mach-O Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Quantize without llama-quantize Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Bump llama.cpp and switch to ggml-org Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Remove make-gguf.sh Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update Cargo.lock Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Support HF_HUB_USER_AGENT_ORIGIN Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Bump llama.cpp Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Add --build-arg llamacpp_native & llamacpp_cpu_arm_arch Signed-off-by: Adrien Gallouët <angt@huggingface.co> --------- Signed-off-by: Adrien Gallouët <angt@huggingface.co>	2025-03-11 09:19:01 +01:00
Nicolas Patry	8e92942a18	Making `tool_calls` a vector. (#3075 ) * Making `tool_calls` a vector. * Update doc. * Fixing the nix overlay with updated version. * Add openai dependency. * Updating the old tests. * Trying to reduce the logs in the case of errors. * Less spammy logs too.	2025-03-05 22:32:31 +01:00

1 2 3

102 Commits