Skip to content

Commit a75ad59

Browse files
committed
add section numnber
1 parent 82cd056 commit a75ad59

File tree

1 file changed

+14
-13
lines changed

1 file changed

+14
-13
lines changed

docs/deployment.md

+14-13
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
## 环境部署
22

3-
### 基础环境依赖
3+
### 1. 基础环境依赖
44

55
部署环境进行大模型训练,需要满足以下配置要求:
66

@@ -22,9 +22,10 @@
2222

2323
* 当机器数量较多(5+)且长期使用时,建议使用 Kubernetes 或类似集群管理工具进行集群管理。
2424

25-
### 安装部署流程
25+
### 2. 本地安装部署流程
26+
27+
#### 2.1 安装 PaddlePaddle
2628

27-
#### 安装 PaddlePaddle
2829
**裸机安装**
2930

3031
根据环境在 [安装文档](https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/docker/linux-docker.html) 选择对应的版本使用 pip install 安装,执行对应命令,例如
@@ -76,7 +77,7 @@ registry.baidubce.com/paddlepaddle/paddle:2.3.1-gpu-cuda11.2-cudnn8 bash
7677

7778
> 为保证通信效率和通信正常,添加参数 --net=host 使用主机网络,更多 docker run 参数说明请参考 [docker 文档](https://docs.docker.com/engine/reference/commandline/run/)
7879
79-
#### 验证安装
80+
#### 2.2 验证安装
8081

8182
**GPU验证**
8283

@@ -240,7 +241,7 @@ LAUNCH INFO 2022-07-20 09:46:57,085 Exit code 0
240241
241242
> 如果其他节点执行命令后各个节点没有后续输出或输出不符合预期请参考 [FAQ](#FAQ) 部分解决。
242243
243-
#### 实际分布式训练任务验证
244+
#### 2.3 实际分布式训练任务验证
244245
245246
在启动分布式任务前需要确保各个节点上安装好 PaddlePaddle 环境,同步好数据和代码。
246247
@@ -459,7 +460,7 @@ LAUNCH INFO 2022-07-21 11:59:00,655 Exit code -15
459460
460461
请根据报错信息进行排查,部分错误请参考 [FAQ](#FAQ)。
461462
462-
#### Kubernetes部署
463+
### 3. Kubernetes部署
463464
464465
在 Kubernetes 上部署分布式任务需要安装 [paddle-operator](https://github.com/PaddleFlow/paddle-operator) 。
465466
@@ -615,7 +616,7 @@ kubectl delete -f deploy/v1/crd.yaml -f deploy/v1/operator.yaml
615616
616617
*注意:重新安装时,建议先卸载再安装*
617618
618-
#### 公有云和私有云部署
619+
### 4. 公有云和私有云部署
619620
620621
在公有云上运行 PaddlePaddle 分布式建议通过选购容器引擎服务的方式,各大云厂商都推出了基于标准 Kubernetes 的云产品,然后根据上节中的教程安装使用即可。
621622
@@ -627,9 +628,9 @@ kubectl delete -f deploy/v1/crd.yaml -f deploy/v1/operator.yaml
627628
628629
更为方便的是使用百度提供的全功能AI开发平台 [BML](https://cloud.baidu.com/product/bml) 来使用,详细的使用方式请参考 [BML文档](https://ai.baidu.com/ai-doc/BML/pkhxhgo5v)。
629630
630-
### FAQ
631+
### 5. FAQ
631632
632-
#### 网络问题排查
633+
#### 5.1 网络问题排查
633634
634635
请按照以下步骤排查网络问题
635636
@@ -732,7 +733,7 @@ export NCCL_SOCKET_IFNAME=eth1
732733
上述测试均正常但是无法跑通分布式环境测试时
733734
请使用 [nccl-test](https://github.com/NVIDIA/nccl-tests) 测试 GPU 通信是否正常。
734735
735-
#### 多Python环境问题
736+
#### 5.2 多Python环境问题
736737
737738
当工作环境中存在多个版本的 python 时可能存在不一致导致问题。
738739
@@ -767,7 +768,7 @@ $ ls /usr/bin/python*
767768
768769
即当使用 python 时,使用绝对路径 `/usr/bin/python3.7` 替换。
769770
770-
#### 自动获取 IP 错误(多网卡环境问题)
771+
#### 5.3 自动获取 IP 错误(多网卡环境问题)
771772
772773
使用 paddle.distributed.launch 会自动识别使用的 IP,在多网卡配置的环境中自动识别的网卡可能不是预期使用的网卡。
773774
@@ -812,7 +813,7 @@ python -m paddle.distributed.launch --master=10.10.10.1:49178 --nnodes=2 --host=
812813
813814
> 当 --master 地址识别错误时,也需要手动替换。
814815
815-
#### 机器端口有限制,需要使用固定端口
816+
#### 5.4 机器端口有限制,需要使用固定端口
816817
817818
当集群环境限制通信网卡时需要手动配置所有 ip 和 port 以启动分布式,以机器 `10.10.10.1` 和机器 `10.10.10.2` 必须使用端口 8000-8999 的情况为例,
818819
假设每台机器有两个卡,使用如下脚本设置每个卡对应进程的环境变量,依次启动进程。
@@ -837,7 +838,7 @@ python train.py
837838
838839
注意在执行时,需要依次替换后面4个环境变量为对应值启动。
839840
840-
#### 常用的通信问题排查
841+
#### 5.5 常用的通信问题排查
841842
842843
GPU/NCCL 问题请先核对**版本是否匹配**,通过 `nvidia-smi` 查看是否有进程正在占用,仍有问题需要通过 [nccl-test](https://github.com/NVIDIA/nccl-tests) 测试。常见运行时错误和解决方法如下,
843844

0 commit comments

Comments
 (0)