fix all ctest error and change lars compute code of cpu

JamesLim-sy · JamesLim-sy · commit df6841468ae7 · 2021-10-11T06:30:26.000Z
diff --git a/paddle/fluid/operators/optimizers/lars_momentum_op.cu b/paddle/fluid/operators/optimizers/lars_momentum_op.cu
@@ -178,8 +178,8 @@ __global__ void L2NormKernel(
 #if CUDA_VERSION >= 11000
   // Grid sync for completely writring partial result back to gloabl memory
   cg->sync();
-  MT p_partial_sum = threadIdx.x < thresh ? p_buffer[threadIdx.x] : 0;
-  MT g_partial_sum = threadIdx.x < thresh ? g_buffer[threadIdx.x] : 0;
+  MT p_partial_sum = threadIdx.x < gridDim.x ? p_buffer[threadIdx.x] : 0;
+  MT g_partial_sum = threadIdx.x < gridDim.x ? g_buffer[threadIdx.x] : 0;
   *p_n = sqrt(math::blockReduceSum<MT>(p_partial_sum, FINAL_MASK));
   *g_n = sqrt(rescale_grad_pow *
               math::blockReduceSum<MT>(g_partial_sum, FINAL_MASK));
@@ -193,7 +193,6 @@ struct MergedParameter {
  public:
   int64_t numel_arr[LARS_MAX_MERGED_OPS];
   int repeat_arr[LARS_MAX_MERGED_OPS];
-  int thresh_arr[LARS_MAX_MERGED_OPS];
   const T* __restrict__ p_arr[LARS_MAX_MERGED_OPS];
   const T* __restrict__ g_arr[LARS_MAX_MERGED_OPS];
   const MT* __restrict__ v_arr[LARS_MAX_MERGED_OPS];
@@ -222,8 +221,7 @@ __global__ void MergedMomentumLarsKernel(MergedParameter<T, MT>* merged_params,
     MT grad_norm = static_cast<MT>(0);
     L2NormKernel<T, MT>(&cg, merged_params->p_arr[i], merged_params->g_arr[i],
                         p_buffer, g_buffer, numel, merged_params->repeat_arr[i],
-                        rescale_grad, merged_params->thresh_arr[i], &param_norm,
-                        &grad_norm);
+                        rescale_grad, 0, &param_norm, &grad_norm);
     const MT lr = *(merged_params->lr_arr[i]);
     const MT lars_weight_decay = merged_params->weight_decay_arr[i];
     MT local_lr = lr;
@@ -418,11 +416,9 @@ class LarsMomentumOpCUDAKernel : public framework::OpKernel<T> {
       for (int i = 0; i < op_num; ++i) {
         grid_num = (merged_params.numel_arr[i] + LARS_BLOCK_SIZE - 1) /
                    LARS_BLOCK_SIZE;
+        // The maximum block number for L2 norm kernel is grid_real.
         merged_params.repeat_arr[i] =
             (merged_params.numel_arr[i] + grid_stride - 1) / grid_stride - 1;
-        // The maximum block number for L2 norm kernel is grid_real.
-        merged_params.thresh_arr[i] =
-            merged_params.repeat_arr[i] > 0 ? grid_real : grid_num;
       }
       if (multi_precision) {
         auto master_param = ctx.MultiInput<framework::LoDTensor>("MasterParam");
diff --git a/paddle/fluid/operators/optimizers/lars_momentum_op.h b/paddle/fluid/operators/optimizers/lars_momentum_op.h
@@ -23,6 +23,7 @@ template <typename T>
 class LarsMomentumOpKernel : public framework::OpKernel<T> {
  public:
   void Compute(const framework::ExecutionContext& ctx) const override {
+    const bool merge_operation = ctx.Attr<bool>("merge_operation");
     auto param_out = ctx.MultiOutput<framework::LoDTensor>("ParamOut");
     auto velocity_out = ctx.MultiOutput<framework::LoDTensor>("VelocityOut");
     auto param = ctx.MultiInput<framework::LoDTensor>("Param");
@@ -38,39 +39,74 @@ class LarsMomentumOpKernel : public framework::OpKernel<T> {
                           framework::ToTypeName(grad_var[0]->Type())));
     auto grad = ctx.MultiInput<framework::LoDTensor>("Grad");
 
-    param_out[0]->mutable_data<T>(ctx.GetPlace());
-    velocity_out[0]->mutable_data<T>(ctx.GetPlace());
-
     T mu = static_cast<T>(ctx.Attr<float>("mu"));
     T lars_coeff = ctx.Attr<float>("lars_coeff");
-    T lars_weight_decay = ctx.Attr<std::vector<float>>("lars_weight_decay")[0];
     T epsilon = ctx.Attr<float>("epsilon");
 
-    auto p_out = framework::EigenVector<T>::Flatten(*(param_out[0]));
-    auto v_out = framework::EigenVector<T>::Flatten(*(velocity_out[0]));
+    if (!merge_operation) {
+      auto* lr = learning_rate[0]->data<T>();
+      T lars_weight_decay =
+          ctx.Attr<std::vector<float>>("lars_weight_decay")[0];
+      param_out[0]->mutable_data<T>(ctx.GetPlace());
+      velocity_out[0]->mutable_data<T>(ctx.GetPlace());
+
+      auto p_out = framework::EigenVector<T>::Flatten(*(param_out[0]));
+      auto v_out = framework::EigenVector<T>::Flatten(*(velocity_out[0]));
+      auto p = framework::EigenVector<T>::Flatten(*(param[0]));
+      auto v = framework::EigenVector<T>::Flatten(*(velocity[0]));
+      auto g = framework::EigenVector<T>::Flatten(*(grad[0]));
+
+      framework::Tensor p_norm_t, g_norm_t;
+      p_norm_t.Resize({1});
+      g_norm_t.Resize({1});
+      p_norm_t.mutable_data<T>(ctx.GetPlace());
+      g_norm_t.mutable_data<T>(ctx.GetPlace());
+      auto ep_norm = framework::EigenScalar<T>::From(p_norm_t);
+      auto eg_norm = framework::EigenScalar<T>::From(g_norm_t);
+      ep_norm = p.square().sum().sqrt();
+      eg_norm = g.square().sum().sqrt();
+
+      T local_lr = lr[0];
+      if (lars_weight_decay > 0 && ep_norm(0) > 0 && eg_norm(0) > 0) {
+        local_lr = lr[0] * lars_coeff * ep_norm(0) /
+                   (eg_norm(0) + lars_weight_decay * ep_norm(0) + epsilon);
+      }
+      v_out = v * mu + local_lr * (g + lars_weight_decay * p);
+      p_out = p - v_out;
+    } else {
+      int op_num = param.size();
+      auto weight_decay_arr = ctx.Attr<std::vector<float>>("lars_weight_decay");
+      for (int i = 0; i < op_num; ++i) {
+        auto* lr = learning_rate[i]->data<T>();
+        T lars_weight_decay = weight_decay_arr[i];
+        param_out[i]->mutable_data<T>(ctx.GetPlace());
+        velocity_out[i]->mutable_data<T>(ctx.GetPlace());
 
-    auto p = framework::EigenVector<T>::Flatten(*(param[0]));
-    auto v = framework::EigenVector<T>::Flatten(*(velocity[0]));
-    auto g = framework::EigenVector<T>::Flatten(*(grad[0]));
-    auto* lr = learning_rate[0]->data<T>();
+        auto p_out = framework::EigenVector<T>::Flatten(*(param_out[i]));
+        auto v_out = framework::EigenVector<T>::Flatten(*(velocity_out[i]));
+        auto p = framework::EigenVector<T>::Flatten(*(param[i]));
+        auto v = framework::EigenVector<T>::Flatten(*(velocity[i]));
+        auto g = framework::EigenVector<T>::Flatten(*(grad[i]));
 
-    framework::Tensor p_norm_t, g_norm_t;
-    p_norm_t.Resize({1});
-    g_norm_t.Resize({1});
-    p_norm_t.mutable_data<T>(ctx.GetPlace());
-    g_norm_t.mutable_data<T>(ctx.GetPlace());
-    auto ep_norm = framework::EigenScalar<T>::From(p_norm_t);
-    auto eg_norm = framework::EigenScalar<T>::From(g_norm_t);
+        framework::Tensor p_norm_t, g_norm_t;
+        p_norm_t.Resize({1});
+        g_norm_t.Resize({1});
+        p_norm_t.mutable_data<T>(ctx.GetPlace());
+        g_norm_t.mutable_data<T>(ctx.GetPlace());
+        auto ep_norm = framework::EigenScalar<T>::From(p_norm_t);
+        auto eg_norm = framework::EigenScalar<T>::From(g_norm_t);
+        ep_norm = p.square().sum().sqrt();
+        eg_norm = g.square().sum().sqrt();
 
-    ep_norm = p.square().sum().sqrt();
-    eg_norm = g.square().sum().sqrt();
-    T local_lr = lr[0];
-    if (lars_weight_decay > 0 && ep_norm(0) > 0 && eg_norm(0) > 0) {
-      local_lr = lr[0] * lars_coeff * ep_norm(0) /
-                 (eg_norm(0) + lars_weight_decay * ep_norm(0) + epsilon);
+        T local_lr = lr[0];
+        if (lars_weight_decay > 0 && ep_norm(0) > 0 && eg_norm(0) > 0) {
+          local_lr = lr[0] * lars_coeff * ep_norm(0) /
+                     (eg_norm(0) + lars_weight_decay * ep_norm(0) + epsilon);
+        }
+        v_out = v * mu + local_lr * (g + lars_weight_decay * p);
+        p_out = p - v_out;
+      }
     }
-    v_out = v * mu + local_lr * (g + lars_weight_decay * p);
-    p_out = p - v_out;
   }
 };
 
diff --git a/python/paddle/fluid/tests/unittests/test_fleet_lars_meta_optimizer.py b/python/paddle/fluid/tests/unittests/test_fleet_lars_meta_optimizer.py
@@ -103,7 +103,7 @@ def test_lars_exclude_fn(self):
                 'op_role_var')[0] or ".b" in op.attr('op_role_var')[0])
         ]
         for op in ops_without_wd:
-            self.assertEqual(op.attr('lars_weight_decay'), 0)
+            self.assertEqual(op.attr('lars_weight_decay')[0], 0)
 
     def test_lars_apply_with_amp(self):
         role = role_maker.PaddleCloudRoleMaker(is_collective=True)

Original file line number	Diff line number	Diff line change
`@@ -103,7 +103,7 @@ def test_lars_exclude_fn(self):`
`103`	`103`	`'op_role_var')[0] or ".b" in op.attr('op_role_var')[0])`
`104`	`104`	`]`
`105`	`105`	`for op in ops_without_wd:`
`106`		`- self.assertEqual(op.attr('lars_weight_decay'), 0)`
	`106`	`+ self.assertEqual(op.attr('lars_weight_decay')[0], 0)`
`107`	`107`
`108`	`108`	`def test_lars_apply_with_amp(self):`
`109`	`109`	`role = role_maker.PaddleCloudRoleMaker(is_collective=True)`