PaddlePaddle
diff --git a/‎doc/fluid/api_guides/low_level/distributed/cpu_train_best_practice.rst renamed to ‎doc/fluid/advanced_usage/best_practice/cpu_train_best_practice.rst
Lines changed: 2 additions & 2 deletions b/‎doc/fluid/api_guides/low_level/distributed/cpu_train_best_practice.rst renamed to ‎doc/fluid/advanced_usage/best_practice/cpu_train_best_practice.rst
Lines changed: 2 additions & 2 deletions
diff --git a/‎doc/fluid/api_guides/low_level/distributed/cpu_train_best_practice_en.rst renamed to ‎doc/fluid/advanced_usage/best_practice/cpu_train_best_practice_en.rst b/‎doc/fluid/api_guides/low_level/distributed/cpu_train_best_practice_en.rst renamed to ‎doc/fluid/advanced_usage/best_practice/cpu_train_best_practice_en.rst
diff --git a/‎doc/fluid/advanced_usage/best_practice/dist_training_gpu.rst
Lines changed: 5 additions & 4 deletions b/‎doc/fluid/advanced_usage/best_practice/dist_training_gpu.rst
Lines changed: 5 additions & 4 deletions
diff --git a/‎doc/fluid/advanced_usage/best_practice/index_cn.rst
Lines changed: 9 additions & 0 deletions b/‎doc/fluid/advanced_usage/best_practice/index_cn.rst
Lines changed: 9 additions & 0 deletions
diff --git a/‎doc/fluid/advanced_usage/best_practice/index_en.rst
Lines changed: 8 additions & 0 deletions b/‎doc/fluid/advanced_usage/best_practice/index_en.rst
Lines changed: 8 additions & 0 deletions
diff --git a/‎doc/fluid/advanced_usage/design_idea/fluid_design_idea.md
Lines changed: 14 additions & 14 deletions b/‎doc/fluid/advanced_usage/design_idea/fluid_design_idea.md
Lines changed: 14 additions & 14 deletions
diff --git a/‎doc/fluid/advanced_usage/index.rst
Lines changed: 2 additions & 2 deletions b/‎doc/fluid/advanced_usage/index.rst
Lines changed: 2 additions & 2 deletions
diff --git a/‎doc/fluid/advanced_usage/index_en.rst
Lines changed: 1 addition & 0 deletions b/‎doc/fluid/advanced_usage/index_en.rst
Lines changed: 1 addition & 0 deletions
@@ -1,8 +1,8 @@
 .. _api_guide_cpu_training_best_practice:
 
-##################
+####################
 分布式CPU训练最佳实践
-##################
+####################
 
 提高CPU分布式训练的训练速度，主要要从两个方面来考虑：
 1）提高训练速度，主要是提高CPU的使用率；2）提高通信速度，主要是减少通信传输的数据量。
 
@@ -1,7 +1,8 @@
 .. _best_practice_dist_training_gpu:
 
-性能优化最佳实践之：GPU分布式训练
-============================
+#####################
+分布式GPU训练最佳实践
+#####################
 
 开始优化您的GPU分布式训练任务
 -------------------------
@@ -170,7 +171,7 @@ PaddlePaddle Fluid使用“线程池” [#]_ 模型调度并执行Op，Op在启
 数据读取的优化在GPU训练中至关重要，尤其在不断增加batch_size提升吞吐时，计算对reader性能会有更高对要求，
 优化reader性能需要考虑的点包括：
 
-1. 使用 :code:`pyreader` 
+1. 使用 :code:`pyreader`
    参考 `这里 <../../user_guides/howto/prepare_data/use_py_reader.html>`_
    使用pyreader，并开启 :code:`use_double_buffer`
 2. reader返回uint8类型数据
@@ -229,7 +230,7 @@ PaddlePaddle Fluid使用“线程池” [#]_ 模型调度并执行Op，Op在启
               for batch_id in (iters_per_pass):
                   exe.run()
           pyreader.reset()
-   
+
 
 使用混合精度训练
 ++++++++++++++
 
@@ -0,0 +1,9 @@
+#########
+最佳实践
+#########
+
+..  toctree::
+    :hidden:
+
+    cpu_train_best_practice.rst
+    dist_training_gpu.rst
@@ -0,0 +1,8 @@
+###############
+Best Practice
+###############
+
+..  toctree::
+    :hidden:
+
+    cpu_train_best_practice_en.rst
@@ -21,28 +21,28 @@ Fluid使用一种编译器式的执行流程，分为编译时和运行时两个
 </p>
 
  1. 编译时，用户编写一段python程序，通过调用 Fluid 提供的算子，向一段 Program 中添加变量（Tensor）以及对变量的操作（Operators 或者 Layers）。用户只需要描述核心的前向计算，不需要关心反向计算、分布式下以及异构设备下如何计算。
- 
+
  2. 原始的 Program 在平台内部转换为中间描述语言： `ProgramDesc`。
- 
+
  3. 编译期最重要的一个功能模块是 `Transpiler`。`Transpiler` 接受一段 `ProgramDesc` ，输出一段变化后的 `ProgramDesc` ，作为后端 `Executor` 最终需要执行的 Fluid Program
 
  4. 后端 Executor 接受 Transpiler 输出的这段 Program ，依次执行其中的 Operator（可以类比为程序语言中的指令），在执行过程中会为 Operator 创建所需的输入输出并进行管理。
-	
 
 
- 
-## 2. Program设计思想 
+
+
+## 2. Program设计思想
 
 用户完成网络定义后，一段 Fluid 程序中通常存在 2 段 Program：
 
   1. fluid.default_startup_program：定义了创建模型参数，输入输出，以及模型中可学习参数的初始化等各种操作
-    
+
     default_startup_program 可以由框架自动生成，使用时无需显示地创建
-    
+
     如果调用修改了参数的默认初始化方式，框架会自动的将相关的修改加入default_startup_program
-  
+
   2. fluid.default_main_program ：定义了神经网络模型，前向反向计算，以及优化算法对网络中可学习参数的更新
-    
+
     使用Fluid的核心就是构建起 default_main_program
 
 
@@ -53,7 +53,7 @@ Fluid 的 Program 的基本结构是一些嵌套 blocks，形式上类似一段
 blocks中包含：
 
 -  本地变量的定义
--  一系列的operator 
+-  一系列的operator
 
 block的概念与通用程序一致，例如在下列这段C++代码中包含三个block：
 
@@ -95,7 +95,7 @@ prob = ie()
 ```
 ### BlockDesc and ProgramDesc
 
-用户描述的block与program信息在Fluid中以[protobuf](https://en.wikipedia.org/wiki/Protocol_Buffers) 格式保存，所有的`protobub`信息被定义在`framework.proto`中，在Fluid中被称为BlockDesc和ProgramDesc。ProgramDesc和BlockDesc的概念类似于一个[抽象语法树](https://en.wikipedia.org/wiki/Abstract_syntax_tree)。
+用户描述的block与program信息在Fluid中以[protobuf](https://en.wikipedia.org/wiki/Protocol_Buffers) 格式保存，所有的`protobuf`信息被定义在`framework.proto`中，在Fluid中被称为BlockDesc和ProgramDesc。ProgramDesc和BlockDesc的概念类似于一个[抽象语法树](https://en.wikipedia.org/wiki/Abstract_syntax_tree)。
 
 `BlockDesc`中包含本地变量的定义`vars`，和一系列的operator`ops`：
 
@@ -172,12 +172,12 @@ class Executor{
 				Scope* scope,
 				int block_id) {
 			auto& block = pdesc.Block(block_id);
-			
+
 			//创建所有变量
 			for (auto& var : block.AllVars())
 				scope->Var(Var->Name());
 			}
-			
+
 			//创建OP并按顺序执行
 			for (auto& op_desc : block.AllOps()){
 				auto op = CreateOp(*op_desc);
@@ -300,7 +300,7 @@ BlockDesc中包含定义的 vars 和一系列的 ops，以输入x为例，python
 x = fluid.layers.data(name="x",shape=[1],dtype='float32')
 ```
 在BlockDesc中，变量x被描述为：
-``` 
+```
 vars {
     name: "x"
     type {
 
@@ -29,5 +29,5 @@
     development/profiling/index_cn.rst
     development/contribute_to_paddle/index_cn.rst
     development/write_docs_cn.md
-    best_practice/dist_training_gpu.rst
-    paddle_slim/paddle_slim.md 
+    best_practice/index_cn.rst
+    paddle_slim/paddle_slim.md
@@ -29,3 +29,4 @@ We gladly encourage your contributions of codes and documentation to our communi
     development/profiling/index_en.rst
     development/contribute_to_paddle/index_en.rst
     development/write_docs_en.md
+    best_practice/index_en.rst