text-generation-inference/server/Makefile-vllm

vllm-cuda:
    # Clone vllm
	pip install -U ninja packaging --no-cache-dir
	git clone https://github.com/OlivierDehaene/vllm.git vllm

build-vllm-cuda: vllm-cuda
	cd vllm && git fetch && git checkout 4bec8cee87f6bb8cebaec297029713cd2082e0b2
	cd vllm && python setup.py build

install-vllm-cuda: build-vllm-cuda
	pip uninstall vllm -y || true
	cd vllm && python setup.py install

vllm-rocm:
    # Clone vllm
	pip install -U ninja packaging --no-cache-dir
	git clone https://github.com/fxmarty/rocm-vllm.git vllm

build-vllm-rocm: vllm-rocm
	cd vllm && git fetch && git checkout ca6913b3c2ffacdcb7d15e914dc34adbc6c89479
	cd vllm && patch /opt/rocm/include/hip/amd_detail/amd_hip_bf16.h ./rocm_patch/rocm_bf16.patch
	cd vllm && PYTORCH_ROCM_ARCH="gfx90a;gfx942" python setup.py install

install-vllm-rocm: build-vllm-rocm
	pip uninstall vllm -y || true
	cd vllm && python setup.py install