Skip to content

Commit f6ad587

Browse files
ltd0924luotingdan
and
luotingdan
authored
[Doc] 文档完善,新增模型环境设备需求 (#10071)
* [Doc] 文档完善,新增模型环境设备需求 * [Doc] 文档完善,新增模型环境设备需求 --------- Co-authored-by: luotingdan <luotingdan@baidu.com>
1 parent 2e8b5d2 commit f6ad587

File tree

4 files changed

+182
-85
lines changed

4 files changed

+182
-85
lines changed

llm/server/README.md

+92-19
Original file line numberDiff line numberDiff line change
@@ -4,34 +4,107 @@
44

55
## 快速开始
66

7-
基于预编译镜像部署,**使用飞桨静态图模型部署**本节以 Meta-Llama-3-8B-Instruct-A8W8C8 为例。其他模型需按照要求导出为**静态图模型格式**。更多模型请参考[LLaMA](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/llama.md)[Qwen](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/qwen.md)[DeepSeek](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/deepseek.md)[Mixtral](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/mixtral.md), 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)
7+
基于预编译镜像部署,**使用飞桨静态图模型部署**本节以a100/v100机器跑 meta-llama/Meta-Llama-3-8B-Instruct bf16 推理为例子。其他模型需按照要求导出为**静态图模型格式**。更多模型请参考[LLaMA](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/llama.md)[Qwen](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/qwen.md)[DeepSeek](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/deepseek.md)[Mixtral](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/mixtral.md), 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)
88

9-
```
10-
# 下载模型
11-
wget https://paddle-qa.bj.bcebos.com/inference_model/Meta-Llama-3-8B-Instruct-A8W8C8.tar
12-
mkdir Llama-3-8B-A8W8C8 && tar -xf Meta-Llama-3-8B-Instruct-A8W8C8.tar -C Llama-3-8B-A8W8C8
139

14-
# 挂载模型文件
15-
export MODEL_PATH=${PWD}/Llama-3-8B-A8W8C8
10+
### 支持镜像
1611

17-
docker run --gpus all --shm-size 5G --network=host --privileged --cap-add=SYS_PTRACE \
18-
-v ${MODEL_PATH}:/models/ \
19-
-dit registry.baidubce.com/paddlepaddle/fastdeploy:llm-serving-cuda123-cudnn9-v1.2 \
20-
bash -c 'export USE_CACHE_KV_INT8=1 && cd /opt/output/Serving && bash start_server.sh; exec bash'
21-
```
12+
|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
13+
|:------|:-:|:-:|:-:|
14+
| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100,T4,A100,A30,A10 |
15+
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10,L20,H20,H100 |
2216

23-
等待服务启动成功(服务初次启动大概需要40s),可以通过以下命令测试:
17+
### 静态图快速部署
2418

25-
```
26-
curl 127.0.0.1:9965/v1/chat/completions \
27-
-H 'Content-Type: application/json' \
28-
-d '{"text": "hello, llm"}'
29-
```
19+
该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务
20+
21+
`MODEL_PATH` 为指定模型下载的存储路径,可自行指定
22+
`model_name` 为指定下载模型名称,具体支持模型可查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
3023

3124
Note:
3225
1. 请保证 shm-size >= 5,不然可能会导致服务启动失败
26+
2. 部署前请确认模型所需要的环境和硬件,请参考[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
27+
28+
29+
**A100部署示例**
30+
```shell
31+
export MODEL_PATH=${MODEL_PATH:-$PWD}
32+
export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Append-Attn/bfloat16"}
33+
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
34+
-v $MODEL_PATH:/models -e "model_name=${model_name}" \
35+
-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
36+
-c -ex 'start_server $model_name && tail -f /dev/null'
37+
```
38+
39+
40+
**V100部署示例**
41+
42+
```shell
43+
export MODEL_PATH=${MODEL_PATH:-$PWD}
44+
export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Block-Attn/float16"}
45+
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
46+
-v $MODEL_PATH:/models -e "model_name=${model_name}" \
47+
-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
48+
-c -ex 'start_server $model_name && tail -f /dev/null'
49+
```
50+
51+
### 服务测试
52+
```
53+
curl 127.0.0.1:9965/v1/chat/completions \
54+
-H'Content-Type: application/json' \
55+
-d'{"text": "hello, llm"}'
56+
```
57+
### 用户手动导出静态图部署
58+
59+
不支持一键导出的模型暂时仅支持用户自行导出进行服务化推理,可参考以下内容进行推理服务化部署
60+
61+
#### 模型导出
62+
63+
高性能部署需要先将动态图模型,导出为静态图推理格式,针对A100/V100机器的导出命令如下:
64+
65+
> MODEL_PATH #静态图模型存放地址
66+
> --dtype #可选择导出精度
67+
> --append_attn #仅sm>=80的机器支持
68+
> --block_attn #支持sm<80的机器导出,如果append_attn无法推理可直接替换成block_attn
69+
>[sm对应GPU型号查询](https://developer.nvidia.com/cuda-gpus)
70+
71+
**A100部署示例**
72+
```shell
73+
export MODEL_PATH=${MODEL_PATH:-$PWD}
74+
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
75+
-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
76+
-c -ex 'cd /opt/source/PaddleNLP &&export PYTHONPATH=$PWD:$PYTHONPATH && cd llm && python3 predict/export_model.py --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct --output_path /models --dtype bfloat16 --inference_model 1 --append_attn 1'\
77+
&& docker logs -f $(docker ps -lq)
78+
```
79+
80+
**V100部署示例**
81+
⚠️ v100由于硬件指令限制,仅支持float16
82+
```shell
83+
export MODEL_PATH=${MODEL_PATH:-$PWD}
84+
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
85+
-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
86+
-c -ex 'cd /opt/source/PaddleNLP &&export PYTHONPATH=$PWD:$PYTHONPATH&& cd llm && python3 predict/export_model.py --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct --output_path /models --dtype float16 --inference_model 1 --block_attn'\
87+
&& docker logs -f $(docker ps -lq)
88+
```
89+
90+
### 服务化推理
91+
具体的部署细节以及参数说明可以查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
92+
93+
94+
```shell
95+
export docker_img=ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1
96+
97+
export MODEL_PATH=${MODEL_PATH:-$PWD}
98+
docker run --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
99+
-v $MODEL_PATH/:/models -dit $docker_img /bin/bash \
100+
-c -ex 'start_server && tail -f /dev/null'
101+
```
102+
103+
104+
**更多文档**
33105

34-
更多关于该部署工具的使用方法,请查看[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
106+
- 部署工具详细说明请查看[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
107+
- 静态图支持模型请查看[静态图模型下载支持](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
35108

36109
## License
37110

llm/server/docs/deploy_usage_tutorial.md

+23-24
Original file line numberDiff line numberDiff line change
@@ -3,30 +3,6 @@
33

44
*该部署工具是基于英伟达 Triton 框架专为服务器场景的大模型服务化部署而设计。它提供了支持 gRPC、HTTP 协议的服务接口,以及流式 Token 输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化(PTQ)等加速优化策略,为用户带来易用且高性能的部署体验。*
55

6-
## 静态图快速部署
7-
8-
该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务
9-
10-
`MODEL_PATH` 为指定模型下载的存储路径,可自行指定
11-
`model_name` 为指定下载模型名称,具体支持模型可查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
12-
13-
14-
```
15-
export MODEL_PATH=${MODEL_PATH:-$PWD}
16-
export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Block-Attn/float16"}
17-
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
18-
-v $MODEL_PATH:/models -e "model_name=${model_name}" \
19-
-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
20-
-c -ex 'start_server $model_name && tail -f /dev/null'
21-
```
22-
23-
### 服务测试
24-
```
25-
curl 127.0.0.1:9965/v1/chat/completions \
26-
-H'Content-Type: application/json' \
27-
-d'{"text": "hello, llm"}'
28-
```
29-
306

317
## 部署环境准备
328

@@ -82,6 +58,29 @@ python download_model.py \
8258
--speculate_model_path $MODEL_PATH
8359
```
8460

61+
**单机模型下载**
62+
以DeepSeek-R1 weight_only_int4 模型为例
63+
```
64+
export MODEL_PATH=${MODEL_PATH:-$PWD}
65+
export model_name="deepseek-ai/DeepSeek-R1/weight_only_int4"
66+
python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 1
67+
```
68+
**多机模型下载**
69+
以DeepSeek-R1 2机 weight_only_int8 模型为例
70+
**node1** 主节点
71+
```
72+
export MODEL_PATH=${MODEL_PATH:-$PWD}
73+
export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
74+
python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 2 --mode "master"
75+
```
76+
**node2** 副节点
77+
```
78+
export MODEL_PATH=${MODEL_PATH:-$PWD}
79+
export model_name="deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8"
80+
python download_model.py --model_name $model_name --dir $MODEL_PATH --nnodes 2 --mode "slave"
81+
```
82+
83+
8584
**参数说明**
8685

8786
| 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 |
+44-42
Original file line numberDiff line numberDiff line change
@@ -1,20 +1,34 @@
1-
# 一键部署推理服务
1+
# 大模型服务化部署-快速开始教程
22

3-
本文档展示了如何使用docker一键跑通大模型推理。支持的模型可参考[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
3+
*该部署工具是基于英伟达 Triton 框架专为服务器场景的大模型服务化部署而设计。它提供了支持 gRPC、HTTP 协议的服务接口,以及流式 Token 输出能力。底层推理引擎支持连续批处理、weight only int8、后训练量化(PTQ)等加速优化策略,为用户带来易用且高性能的部署体验。*
44

5-
# 快速开始
6-
基于预编译镜像部署,使用飞桨静态图模型部署。本节以a100/v100机器跑Llama 3推理为例。其他模型需按照要求导出为静态图模型格式。 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)
5+
## 快速开始
76

8-
## 一键启动推理服务(推荐)
7+
基于预编译镜像部署,**使用飞桨静态图模型部署**。本节以a100/v100机器跑 meta-llama/Meta-Llama-3-8B-Instruct bf16 推理为例子。其他模型需按照要求导出为**静态图模型格式**。更多模型请参考[LLaMA](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/llama.md)[Qwen](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/qwen.md)[DeepSeek](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/deepseek.md)[Mixtral](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/mixtral.md), 更细致的模型推理、量化教程可以参考[大模型推理教程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/docs/predict/inference.md)
98

10-
该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务
119

12-
本节以 meta-llama/Meta-Llama-3-8B-Instruct bf16 推理为例子
10+
### 支持镜像
1311

14-
>MODEL_PATH # 静态图模型存放路径。
15-
>model_name # 参考文档可一键跑通的模型列表
12+
|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
13+
|:------|:-:|:-:|:-:|
14+
| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100,T4,A100,A30,A10 |
15+
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10,L20,H20,H100 |
16+
17+
### 静态图快速部署
1618

17-
a100
19+
该方法仅支持[可一键跑通的模型列表](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)中的模型进行一键启动推理服务。
20+
21+
为了避免模型过大导致的下载时间过长问题,我们直接提供了自动下载的脚本(参考文档[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)),支持下载后再启动服务进行推理。进入容器后根据单机或多机模型进行静态图下载。
22+
23+
`MODEL_PATH` 为指定模型下载的存储路径,可自行指定
24+
`model_name` 为指定下载模型名称,具体支持模型可查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
25+
26+
Note:
27+
1. 请保证 shm-size >= 5,不然可能会导致服务启动失败
28+
2. 部署前请确认模型所需要的环境和硬件,请参考[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)
29+
30+
31+
**A100部署示例**
1832
```shell
1933
export MODEL_PATH=${MODEL_PATH:-$PWD}
2034
export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Append-Attn/bfloat16"}
@@ -23,7 +37,10 @@ docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap
2337
-dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
2438
-c -ex 'start_server $model_name && tail -f /dev/null'
2539
```
26-
v100
40+
41+
42+
**V100部署示例**
43+
2744
```shell
2845
export MODEL_PATH=${MODEL_PATH:-$PWD}
2946
export model_name=${model_name:-"meta-llama/Meta-Llama-3-8B-Instruct-Block-Attn/float16"}
@@ -33,12 +50,17 @@ docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap
3350
-c -ex 'start_server $model_name && tail -f /dev/null'
3451
```
3552

36-
37-
## 用户手动导出
53+
### 服务测试
54+
```
55+
curl 127.0.0.1:9965/v1/chat/completions \
56+
-H'Content-Type: application/json' \
57+
-d'{"text": "hello, llm"}'
58+
```
59+
### 用户手动导出静态图部署
3860

3961
不支持一键导出的模型暂时仅支持用户自行导出进行服务化推理,可参考以下内容进行推理服务化部署
4062

41-
### 模型导出
63+
#### 模型导出
4264

4365
高性能部署需要先将动态图模型,导出为静态图推理格式,针对A100/V100机器的导出命令如下:
4466

@@ -48,17 +70,17 @@ docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap
4870
> --block_attn #支持sm<80的机器导出,如果append_attn无法推理可直接替换成block_attn
4971
>[sm对应GPU型号查询](https://developer.nvidia.com/cuda-gpus)
5072
51-
a100
73+
**A100部署示例**
5274
```shell
5375
export MODEL_PATH=${MODEL_PATH:-$PWD}
5476
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
5577
-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
5678
-c -ex 'cd /opt/source/PaddleNLP &&export PYTHONPATH=$PWD:$PYTHONPATH && cd llm && python3 predict/export_model.py --model_name_or_path meta-llama/Meta-Llama-3-8B-Instruct --output_path /models --dtype bfloat16 --inference_model 1 --append_attn 1'\
5779
&& docker logs -f $(docker ps -lq)
5880
```
59-
> ⚠️ v100由于硬件指令限制,仅支持float16
6081

61-
v100
82+
**V100部署示例**
83+
⚠️ v100由于硬件指令限制,仅支持float16
6284
```shell
6385
export MODEL_PATH=${MODEL_PATH:-$PWD}
6486
docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
@@ -71,37 +93,17 @@ docker run -i --rm --gpus all --shm-size 32G --network=host --privileged --cap
7193
具体的部署细节以及参数说明可以查看[文档](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
7294

7395

74-
a100
7596
```shell
76-
export MODEL_PATH=${MODEL_PATH:-$PWD}
77-
docker run --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
78-
-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 /bin/bash \
79-
-c -ex 'start_server && tail -f /dev/null'
80-
```
97+
export docker_img=ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1
8198

82-
v100
83-
```shell
8499
export MODEL_PATH=${MODEL_PATH:-$PWD}
85100
docker run --gpus all --shm-size 32G --network=host --privileged --cap-add=SYS_PTRACE \
86-
-v $MODEL_PATH/:/models -dit ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 /bin/bash \
101+
-v $MODEL_PATH/:/models -dit $docker_img /bin/bash \
87102
-c -ex 'start_server && tail -f /dev/null'
88103
```
89104

90-
## 服务化测试
91-
92-
> 观察到如下日志后可以
93-
> Init triton server success
94-
> 模型加载完成可以进行服务化测试
95-
96105

97-
```shell
98-
curl 127.0.0.1:9965/v1/chat/completions \
99-
-H'Content-Type: application/json' \
100-
-d'{"text": "hello, llm"}'
101-
```
102-
## 镜像
106+
**更多文档**
103107

104-
|cuda版本| 支持硬件架构|镜像地址|支持的典型设备|
105-
|:------|:-:|:-:|:-:|
106-
| cuda11.8 | 70 75 80 86 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda118-cudnn8-v2.1 |V100,T4,A100,A30,A10 |
107-
| cuda12.4 | 80 86 89 90 |ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddlenlp:llm-serving-cuda124-cudnn9-v2.1 |A100,A30,A10,L20,H20,H100 |
108+
- 部署工具详细说明请查看[服务化部署流程](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/deploy_usage_tutorial.md)
109+
- 静态图支持模型请查看[静态图模型下载支持](https://github.com/PaddlePaddle/PaddleNLP/blob/develop/llm/server/docs/static_models.md)

llm/server/docs/static_models.md

+23
Original file line numberDiff line numberDiff line change
@@ -16,6 +16,9 @@
1616
| deepseek-ai/DeepSeek-V3 | 🚧 |
1717

1818
### DeepSeekR1
19+
部署硬件要求:
20+
- 除MTP模型,Fp8模型之外支持的最低版本是SM80 (机器:A100 / A800) 要求CUDA 11.8 以上
21+
- DeepSeek-R1-MTP 与 Fp8 模型 支持的最低版本是SM90 (机器:H100 / H800) 要求CUDA 12.4 以上
1922

2023
|模型名称|精度|MTP|节点数|静态图下载 model_name|
2124
|:------|:-:|:-:|:-:|:-:|
@@ -55,6 +58,15 @@
5558

5659
### Llama3
5760

61+
部署硬件要求:
62+
- Append-Attn:
63+
- 支持的最低版本是SM80 (机器:A100 / A800)
64+
- 要求CUDA 11.8 以上
65+
- Block-Attn:
66+
- 支持的最低版本是SM70 (机器:V100)
67+
- 要求CUDA 11.8 以上
68+
69+
5870
| 模型名称 | 静态图下载 model_name |
5971
|:------|:-:|
6072
| meta-llama/Meta-Llama-3-8B | 🚧 |
@@ -109,6 +121,10 @@
109121
| qwen/qwen-72b-chat | 🚧 |
110122

111123
### Qwen1.5
124+
部署硬件要求:
125+
- Block-Attn:
126+
- 支持的最低版本是SM70 (机器:V100)
127+
- 要求CUDA 11.8 以上
112128

113129
| 模型名称 | 静态图下载 model_name |
114130
|:------|:-:|
@@ -132,6 +148,13 @@
132148
| Qwen/Qwen1.5-MoE-A2.7B-Chat | 🚧 |
133149

134150
### Qwen2
151+
部署硬件要求:
152+
- Append-Attn:
153+
- 支持的最低版本是SM80 (机器:A100 / A800)
154+
- 要求CUDA 11.8 以上
155+
- Block-Attn:
156+
- 支持的最低版本是SM70 (机器:V100)
157+
- 要求CUDA 11.8 以上
135158

136159
| 模型名称 | 静态图下载 model_name |
137160
|:------|:-:|

0 commit comments

Comments
 (0)