add entrypoint for vllm

louie-tsai · louie-tsai · commit 40cfd77f7943 · 2025-08-14T23:49:02.000-07:00
Signed-off-by: Tsai, Louie &lt;louie.tsai@intel.com&gt;
diff --git a/ChatQnA/docker_compose/intel/cpu/xeon/compose.perf.yaml b/ChatQnA/docker_compose/intel/cpu/xeon/compose.perf.yaml
@@ -6,4 +6,5 @@ services:
     image: public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo:v0.10.0
     environment:
       VLLM_CPU_SGL_KERNEL: 1
+    entrypoint: ["python3", "-m", "vllm.entrypoints.openai.api_server"]
     command: --model $LLM_MODEL_ID --host 0.0.0.0 --port 80 --dtype bfloat16 --distributed-executor-backend mp --block-size 128 --enforce-eager --tensor-parallel-size $TP_NUM --pipeline-parallel-size $PP_NUM --max-num-batched-tokens $MAX_BATCHED_TOKENS --max-num-seqs $MAX_SEQS