diff --git a/integration-tests/models/test_flash_llama_fp8.py b/integration-tests/models/test_flash_llama_fp8.py
index bc7458b7a..808d1329a 100644
--- a/integration-tests/models/test_flash_llama_fp8.py
+++ b/integration-tests/models/test_flash_llama_fp8.py
@@ -48,15 +48,16 @@ async def test_flash_llama_fp8_all_params(flash_llama_fp8, response_snapshot):
     assert response == response_snapshot
 
 
+# TODO: fix and re-enable
 # @pytest.mark.release
-@pytest.mark.asyncio
-@pytest.mark.private
-async def test_flash_llama_fp8_load(flash_llama_fp8, generate_load, response_snapshot):
-    responses = await generate_load(
-        flash_llama_fp8, "Test request", max_new_tokens=10, n=4
-    )
+# @pytest.mark.asyncio
+# @pytest.mark.private
+# async def test_flash_llama_fp8_load(flash_llama_fp8, generate_load, response_snapshot):
+#     responses = await generate_load(
+#         flash_llama_fp8, "Test request", max_new_tokens=10, n=4
+#     )
 
-    assert len(responses) == 4
-    assert all([r.generated_text == responses[0].generated_text for r in responses])
+#     assert len(responses) == 4
+#     assert all([r.generated_text == responses[0].generated_text for r in responses])
 
-    assert responses == response_snapshot
+#     assert responses == response_snapshot
diff --git a/server/text_generation_server/models/__init__.py b/server/text_generation_server/models/__init__.py
index 4fa9e66dc..5f9610261 100644
--- a/server/text_generation_server/models/__init__.py
+++ b/server/text_generation_server/models/__init__.py
@@ -764,7 +764,6 @@ def get_model(
             )
 
     elif model_type == LLAMA or model_type == BAICHUAN or model_type == PHI3:
-        print(f">>> model_type: {model_type}")
         if FLASH_ATTENTION:
             return FlashCausalLM(
                 model_id=model_id,