[Doc] 文档完善，新增模型环境设备需求 (#10071)

ltd0924 · luotingdan · web-flow · commit f6ad587ad7a0 · 2025-03-11T15:15:32.000+08:00
* [Doc] 文档完善，新增模型环境设备需求

* [Doc] 文档完善，新增模型环境设备需求

---------

Co-authored-by: luotingdan &lt;luotingdan@baidu.com&gt;
diff --git a/llm/server/README.md b/llm/server/README.md
@@ -4,34 +4,107 @@
 
 ## 快速开始
 
-  基于预编译镜像部署，**使用飞桨静态图模型部署**。本节以 Meta-Llama-3-8B-Instruct-A8W8C8 为例。其他模型需按照要求导出为**静态图模型格式**。更多模型请参考[LLaMA](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/llama.md)、[Qwen](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/qwen.md)、[DeepSeek](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/deepseek.md)、[Mixtral](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/mixtral.md), 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)：
+  基于预编译镜像部署，**使用飞桨静态图模型部署**。本节以a100/v100机器跑 meta-llama/Meta-Llama-3-8B-Instruct bf16 推理为例子。其他模型需按照要求导出为**静态图模型格式**。更多模型请参考[LLaMA](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/llama.md)、[Qwen](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/qwen.md)、[DeepSeek](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/deepseek.md)、[Mixtral](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/mixtral.md), 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)
 
-  ```
-    # 下载模型
-    wget https://paddle-qa.bj.bcebos.com/inference_model/Meta-Llama-3-8B-Instruct-A8W8C8.tar
-    mkdir Llama-3-8B-A8W8C8 && tar -xf Meta-Llama-3-8B-Instruct-A8W8C8.tar -C Llama-3-8B-A8W8C8
 
-    # 挂载模型文件
-    export MODEL_PATH=${PWD}/Llama-3-8B-A8W8C8
+### 支持镜像
 
-    docker run --gpus all --shm-size 5G --network=host --privileged --cap-add=SYS_PTRACE \
-    -v ${MODEL_PATH}:/models/ \
-    -dit registry.baidubce.com/paddlepaddle/fastdeploy:llm-serving-cuda123-cudnn9-v1.2 \
-    bash -c 'export USE_CACHE_KV_INT8=1 && cd /opt/output/Serving && bash start_server.sh; exec bash'
-  ```
+|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
+|:------|:-:|:-:|:-:|
+| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100，T4，A100，A30，A10 |
+| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100，A30，A10,L20，H20，H100 |
 
-  等待服务启动成功（服务初次启动大概需要40s），可以通过以下命令测试：
+ ### 静态图快速部署
 
-  ```
-    curl 127.0.0.1:9965/v1/chat/completions \
-    -H 'Content-Type: application/json' \
-    -d '{"text": "hello, llm"}'
-  ```
+该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务
+
+`MODEL_PATH` 为指定模型下载的存储路径，可自行指定
+`model_name` 为指定下载模型名称，具体支持模型可查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
 
 Note:
 1. 请保证 shm-size >= 5，不然可能会导致服务启动失败
+2. 部署前请确认模型所需要的环境和硬件，请参考[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
+   
+
+**A100部署示例**
+```shell
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Append-Attn/bfloat16"}
+docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
+-v $MODEL_PATH:/models -e "model_name=${model_name}" \
+-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
+-c -ex 'start_server $model_name && tail -f /dev/null'
+```
+
+
+**V100部署示例**
+
+```shell
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Block-Attn/float16"}
+docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
+-v $MODEL_PATH:/models -e "model_name=${model_name}" \ 
+-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
+-c -ex 'start_server $model_name && tail -f /dev/null'
+```
+
+### 服务测试
+```
+curl 127.0.0.1:9965/v1/chat/completions \
+  -H'Content-Type: application/json' \
+  -d'{"text": "hello, llm"}'
+```
+### 用户手动导出静态图部署
+
+不支持一键导出的模型暂时仅支持用户自行导出进行服务化推理,可参考以下内容进行推理服务化部署
+
+#### 模型导出
+
+高性能部署需要先将动态图模型，导出为静态图推理格式，针对A100/V100机器的导出命令如下：  
+
+> MODEL_PATH #静态图模型存放地址  
+> --dtype #可选择导出精度  
+> --append_attn #仅sm>=80的机器支持  
+> --block_attn #支持sm<80的机器导出，如果append_attn无法推理可直接替换成block_attn  
+>[sm对应GPU型号查询](https://developer.nvidia.com/cuda-gpus)  
+
+**A100部署示例**
+```shell
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
+-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
+-c -ex 'cd /opt/source/PaddleNLP &&export PYTHONPATH=$PWD:$PYTHONPATH && cd llm && python3 predict/export_model.py --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct --output_path /models --dtype bfloat16 --inference_model 1 --append_attn 1'\
+&& docker logs -f $(docker ps -lq)
+```
+
+**V100部署示例**
+ ⚠️ v100由于硬件指令限制，仅支持float16  
+```shell
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
+-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
+-c -ex 'cd /opt/source/PaddleNLP &&export PYTHONPATH=$PWD:$PYTHONPATH&& cd llm && python3 predict/export_model.py --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct --output_path /models --dtype float16 --inference_model 1 --block_attn'\
+&& docker logs -f $(docker ps -lq)
+```
+
+### 服务化推理
+具体的部署细节以及参数说明可以查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
+
+
+```shell
+export docker_img=ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1
+
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+docker run --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
+-v $MODEL_PATH/:/models -dit $docker_img /bin/bash \
+-c -ex 'start_server && tail -f /dev/null'
+```
+
+
+**更多文档**
 
-更多关于该部署工具的使用方法，请查看[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
+- 部署工具详细说明请查看[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
+- 静态图支持模型请查看[静态图模型下载支持](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
 
 ## License
 
diff --git a/llm/server/docs/deploy_usage_tutorial.md b/llm/server/docs/deploy_usage_tutorial.md
@@ -3,30 +3,6 @@
 
 *该部署工具是基于英伟达 Triton 框架专为服务器场景的大模型服务化部署而设计。它提供了支持 gRPC、HTTP 协议的服务接口，以及流式 Token 输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化（PTQ）等加速优化策略，为用户带来易用且高性能的部署体验。*
 
-## 静态图快速部署
-
-该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务
-
-`MODEL_PATH` 为指定模型下载的存储路径，可自行指定
-`model_name` 为指定下载模型名称，具体支持模型可查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
-
-
-```
-export MODEL_PATH=${MODEL_PATH:-$PWD}
-export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Block-Attn/float16"}
-docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
--v $MODEL_PATH:/models -e "model_name=${model_name}" \ 
--dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
--c -ex 'start_server $model_name && tail -f /dev/null'
-```
-
-### 服务测试
-```
-curl 127.0.0.1:9965/v1/chat/completions \
-  -H'Content-Type: application/json' \
-  -d'{"text": "hello, llm"}'
-```
-
 
 ## 部署环境准备
 
@@ -82,6 +58,29 @@ python download_model.py \
 --speculate_model_path $MODEL_PATH 
 ```
 
+**单机模型下载**
+以DeepSeek-R1 weight_only_int4 模型为例
+```
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+export model_name="deepseek-ai/DeepSeek-R1/weight_only_int4"
+python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 1
+```
+**多机模型下载**
+以DeepSeek-R1 2机 weight_only_int8 模型为例
+**node1** 主节点
+```
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
+python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 2 --mode "master"
+```
+**node2** 副节点
+```
+export MODEL_PATH=${MODEL_PATH:-$PWD}
+export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
+python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 2 --mode "slave"
+```
+
+
 **参数说明**
 
 | 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 |
diff --git a/llm/server/docs/general_model_inference.md b/llm/server/docs/general_model_inference.md
@@ -1,20 +1,34 @@
-# 一键部署推理服务
+# 大模型服务化部署-快速开始教程
 
-本文档展示了如何使用docker一键跑通大模型推理。支持的模型可参考[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
+*该部署工具是基于英伟达 Triton 框架专为服务器场景的大模型服务化部署而设计。它提供了支持 gRPC、HTTP 协议的服务接口，以及流式 Token 输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化（PTQ）等加速优化策略，为用户带来易用且高性能的部署体验。*
 
-# 快速开始
-基于预编译镜像部署，使用飞桨静态图模型部署。本节以a100/v100机器跑Llama 3推理为例。其他模型需按照要求导出为静态图模型格式。 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)：
+## 快速开始
 
-## 一键启动推理服务(推荐)
+  基于预编译镜像部署，**使用飞桨静态图模型部署**。本节以a100/v100机器跑 meta-llama/Meta-Llama-3-8B-Instruct bf16 推理为例子。其他模型需按照要求导出为**静态图模型格式**。更多模型请参考[LLaMA](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/llama.md)、[Qwen](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/qwen.md)、[DeepSeek](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/deepseek.md)、[Mixtral](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/mixtral.md), 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)
 
-该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务
 
-本节以 meta-llama/Meta-Llama-3-8B-Instruct bf16 推理为例子
+### 支持镜像
 
->MODEL_PATH # 静态图模型存放路径。  
->model_name # 参考文档可一键跑通的模型列表
+|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
+|:------|:-:|:-:|:-:|
+| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100，T4，A100，A30，A10 |
+| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100，A30，A10,L20，H20，H100 |
+
+ ### 静态图快速部署
 
-a100
+该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务。
+  
+为了避免模型过大导致的下载时间过长问题，我们直接提供了自动下载的脚本（参考文档[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)），支持下载后再启动服务进行推理。进入容器后根据单机或多机模型进行静态图下载。
+
+`MODEL_PATH` 为指定模型下载的存储路径，可自行指定
+`model_name` 为指定下载模型名称，具体支持模型可查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
+
+Note:
+1. 请保证 shm-size >= 5，不然可能会导致服务启动失败
+2. 部署前请确认模型所需要的环境和硬件，请参考[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
+   
+
+**A100部署示例**
 ```shell
 export MODEL_PATH=${MODEL_PATH:-$PWD}
 export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Append-Attn/bfloat16"}
@@ -23,7 +37,10 @@ docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap
 -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
 -c -ex 'start_server $model_name && tail -f /dev/null'
 ```
-v100
+
+
+**V100部署示例**
+
 ```shell
 export MODEL_PATH=${MODEL_PATH:-$PWD}
 export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Block-Attn/float16"}
@@ -33,12 +50,17 @@ docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap
 -c -ex 'start_server $model_name && tail -f /dev/null'
 ```
 
-
-## 用户手动导出
+### 服务测试
+```
+curl 127.0.0.1:9965/v1/chat/completions \
+  -H'Content-Type: application/json' \
+  -d'{"text": "hello, llm"}'
+```
+### 用户手动导出静态图部署
 
 不支持一键导出的模型暂时仅支持用户自行导出进行服务化推理,可参考以下内容进行推理服务化部署
 
-### 模型导出
+#### 模型导出
 
 高性能部署需要先将动态图模型，导出为静态图推理格式，针对A100/V100机器的导出命令如下：  
 
@@ -48,17 +70,17 @@ docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap
 > --block_attn #支持sm<80的机器导出，如果append_attn无法推理可直接替换成block_attn  
 >[sm对应GPU型号查询](https://developer.nvidia.com/cuda-gpus)  
 
-a100
+**A100部署示例**
 ```shell
 export MODEL_PATH=${MODEL_PATH:-$PWD}
 docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
 -v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
 -c -ex 'cd /opt/source/PaddleNLP &&export PYTHONPATH=$PWD:$PYTHONPATH && cd llm && python3 predict/export_model.py --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct --output_path /models --dtype bfloat16 --inference_model 1 --append_attn 1'\
 && docker logs -f $(docker ps -lq)
 ```
-> ⚠️ v100由于硬件指令限制，仅支持float16  
 
-v100
+**V100部署示例**
+ ⚠️ v100由于硬件指令限制，仅支持float16  
 ```shell
 export MODEL_PATH=${MODEL_PATH:-$PWD}
 docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
@@ -71,37 +93,17 @@ docker run  -i --rm  --gpus all --shm-size 32G --network=host --privileged --cap
 具体的部署细节以及参数说明可以查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
 
 
-a100
 ```shell
-export MODEL_PATH=${MODEL_PATH:-$PWD}
-docker run --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
--v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
--c -ex 'start_server && tail -f /dev/null'
-```
+export docker_img=ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1
 
-v100
-```shell
 export MODEL_PATH=${MODEL_PATH:-$PWD}
 docker run --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
--v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
+-v $MODEL_PATH/:/models -dit $docker_img /bin/bash \
 -c -ex 'start_server && tail -f /dev/null'
 ```
 
-## 服务化测试
-
-> 观察到如下日志后可以  
-> Init triton server success  
-> 模型加载完成可以进行服务化测试  
- 
 
-```shell
-curl 127.0.0.1:9965/v1/chat/completions \
-  -H'Content-Type: application/json' \
-  -d'{"text": "hello, llm"}'
-```
-## 镜像
+**更多文档**
 
-|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
-|:------|:-:|:-:|:-:|
-| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100，T4，A100，A30，A10 |
-| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100，A30，A10,L20，H20，H100 |
+- 部署工具详细说明请查看[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
+- 静态图支持模型请查看[静态图模型下载支持](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
diff --git a/llm/server/docs/static_models.md b/llm/server/docs/static_models.md
@@ -16,6 +16,9 @@
 | deepseek-ai/DeepSeek-V3                   | 🚧 |
 
 ### DeepSeekR1
+部署硬件要求：
+- 除MTP模型，Fp8模型之外支持的最低版本是SM80 (机器：A100 / A800) 要求CUDA 11.8 以上
+- DeepSeek-R1-MTP 与 Fp8 模型 支持的最低版本是SM90 (机器：H100 / H800) 要求CUDA 12.4 以上
 
 |模型名称|精度|MTP|节点数|静态图下载 model_name|
 |:------|:-:|:-:|:-:|:-:|
@@ -55,6 +58,15 @@
 
 ### Llama3
 
+部署硬件要求：
+- Append-Attn：
+  - 支持的最低版本是SM80 (机器：A100 / A800)
+  - 要求CUDA 11.8 以上
+- Block-Attn:
+  - 支持的最低版本是SM70 (机器：V100)
+  - 要求CUDA 11.8 以上
+
+
 | 模型名称 | 静态图下载 model_name |
 |:------|:-:|
 | meta-llama/Meta-Llama-3-8B | 🚧 |
@@ -109,6 +121,10 @@
 | qwen/qwen-72b-chat | 🚧 |
 
 ### Qwen1.5
+部署硬件要求：
+- Block-Attn:
+  - 支持的最低版本是SM70 (机器：V100)
+  - 要求CUDA 11.8 以上
 
 | 模型名称 | 静态图下载 model_name |
 |:------|:-:|
@@ -132,6 +148,13 @@
 | Qwen/Qwen1.5-MoE-A2.7B-Chat | 🚧 |
 
 ### Qwen2
+部署硬件要求：
+- Append-Attn：
+  - 支持的最低版本是SM80 (机器：A100 / A800)
+  - 要求CUDA 11.8 以上
+- Block-Attn:
+  - 支持的最低版本是SM70 (机器：V100)
+  - 要求CUDA 11.8 以上
 
 | 模型名称 | 静态图下载 model_name |
 |:------|:-:|