We read every piece of feedback, and take your input very seriously.
To see all available qualifiers, see our documentation.
1 parent 75d9e6a commit 1ed152dCopy full SHA for 1ed152d
docs/guides/06_distributed_training/group_sharded_parallel_cn.rst
@@ -30,7 +30,7 @@ GroupSharded 策略可以根据用户配置支持,分别切分模型参数、
30
^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
31
32
GroupSharded hybrid 数据并行策略,在 GroupSharded 并行的基础上再增加一层数据并行逻辑。
33
-该策略的目的是通过 ``限制 GroupSharded 通信的节点数`` 和 ``增加多路数据并行`` 来提高训练吞吐。 如果一个模型在普通 GroupSharded 训练时需要 M 张 GPU,则则开启 hybrid-dp 至少需要 N*M GPU (N>= 2)。
+该策略的目的是通过 ``限制 GroupSharded 通信的节点数`` 和 ``增加多路数据并行`` 来提高训练吞吐。 如果一个模型在普通 GroupSharded 训练时需要 M 张 GPU,则开启 hybrid-dp 至少需要 N*M GPU (N>= 2)。
34
35
GroupSharded-hybrid-dp 适用的场景如下:
36
0 commit comments