text-generation-inference

mirror of https://github.com/huggingface/text-generation-inference.git synced 2025-06-13 21:02:07 +00:00

Author	SHA1	Message	Date
Wang, Yi A	5cd1c93cad	add moe support, fix qwen/mistral/mixtral crash Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-03-18 00:45:15 -07:00
Wang, Yi A	6bbe24d974	use tensor cache in hpu graph to avoid replay issue Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-03-17 01:36:49 -07:00
Wang, Yi A	a07e7437b6	enable all the model. not testet yet Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-03-17 01:26:32 -07:00
Wang, Yi A	201dc6294f	clean cuda/rocm code in hpu backend, enable flat_hpu Signed-off-by: Wang, Yi A <yi.a.wang@intel.com>	2025-03-14 01:25:31 -07:00
Baptiste Colle	683ff53fa3	Add Gaudi Backend (#3055 ) * wip(gaudi): import server and dockerfile from tgi-gaudi fork * feat(gaudi): new gaudi backend working * fix: fix style * fix prehooks issues * fix(gaudi): refactor server and implement requested changes	2025-02-28 12:14:58 +01:00