text-generation-inference

mirror of https://github.com/huggingface/text-generation-inference.git synced 2025-10-19 11:55:24 +00:00

History

Adrien Gallouët 094975c3a8 Update the llamacpp backend (#3022 ) * Build faster Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Make --model-gguf optional Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Bump llama.cpp Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Enable mmap, offload_kqv & flash_attention by default Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update doc Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Better error message Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update doc Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update installed packages Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Save gguf in models/MODEL_ID/model.gguf Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Fix build with Mach-O Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Quantize without llama-quantize Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Bump llama.cpp and switch to ggml-org Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Remove make-gguf.sh Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Update Cargo.lock Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Support HF_HUB_USER_AGENT_ORIGIN Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Bump llama.cpp Signed-off-by: Adrien Gallouët <angt@huggingface.co> * Add --build-arg llamacpp_native & llamacpp_cpu_arm_arch Signed-off-by: Adrien Gallouët <angt@huggingface.co> --------- Signed-off-by: Adrien Gallouët <angt@huggingface.co>		2025-03-11 09:19:01 +01:00
..
client	Revert "feat: improve qwen2-vl startup " (#2924 )	2025-01-17 12:09:05 -05:00
gaudi	Add Gaudi Backend (#3055 )	2025-02-28 12:14:58 +01:00
grpc-metadata	Upgrading our rustc version. (#2908 )	2025-01-15 17:04:03 +01:00
llamacpp	Update the llamacpp backend (#3022 )	2025-03-11 09:19:01 +01:00
neuron	feat: add support for HF_HUB_USER_AGENT_ORIGIN to add user-agent Origin field in Hub requests. (#3061 )	2025-03-04 16:43:50 +01:00
trtllm	feat: add support for HF_HUB_USER_AGENT_ORIGIN to add user-agent Origin field in Hub requests. (#3061 )	2025-03-04 16:43:50 +01:00
v2	Add backend name to telemetry (#2962 )	2025-01-28 16:53:16 +01:00
v3	Making `tool_calls` a vector. (#3075 )	2025-03-05 22:32:31 +01:00