update helm for vllm 0.10.0

louie-tsai · louie-tsai · commit b19733cbea48 · 2025-08-12T18:18:50.000-07:00
Signed-off-by: Tsai, Louie &lt;louie.tsai@intel.com&gt;
diff --git a/ChatQnA/kubernetes/helm/cpu-values-perf.yaml b/ChatQnA/kubernetes/helm/cpu-values-perf.yaml
@@ -4,19 +4,22 @@
 vllm:
   image:
     repository: public.ecr.aws/q9t5s3a7/vllm-cpu-release-repo
-    tag: "v0.9.2"
+    tag: "v0.10.0"
   resources: {}
   LLM_MODEL_ID: meta-llama/Meta-Llama-3-8B-Instruct
   # Uncomment the following model specific settings for DeepSeek models
   VLLM_CPU_KVCACHE_SPACE: 40
+  VLLM_CPU_SGK_KERNEL: 1
 
   extraCmdArgs: [
-    "--tensor-parallel-size", "2",
+    "--tensor-parallel-size", "1",
+    "--pipeline-parallel-size", "1",
     "--block-size", "128",
     "--dtype", "bfloat16",
-    "--max-model-len","5196",
+    "--max-model-len", "5196",
     "--distributed_executor_backend", "mp",
-    "--enable_chunked_prefill",
+    "--max-num-batched-tokens", "2048",
+    "--max-num-seqs", "256",
     "--enforce-eager"]
   #resources:
   #  requests: