Adding las_op_momentum infer_shape

JamesLim-sy · JamesLim-sy · commit 9fcbe2cf0e80 · 2021-09-16T03:09:51.000Z
diff --git a/paddle/fluid/framework/operator.cc b/paddle/fluid/framework/operator.cc
@@ -1562,6 +1562,9 @@ void OperatorWithKernel::ParseInputDataType(
   proto::VarType::Type default_data_type =
       static_cast<proto::VarType::Type>(-1);
   const std::vector<Variable*> vars = ctx.MultiInputVar(name);
+  if (vars.size() == 161) {
+    std::cout << "vars.size(): " << vars.size() << std::endl;
+  }
   for (size_t i = 0; i < vars.size(); ++i) {
     const Variable* var = vars[i];
     if (var != nullptr) {
@@ -1588,6 +1591,15 @@ void OperatorWithKernel::ParseInputDataType(
                 "not initialized.",
                 Type(), name, ctx.InputNames(name).at(i)));
         proto::VarType::Type tmp = t->type();
+
+        int a = static_cast<int>(default_data_type);
+        int b = static_cast<int>(*data_type);
+        int c = static_cast<int>(tmp);
+        std::cout << i << "th op." << std::endl;
+        std::cout << "default_data_type :" << a << std::endl;
+        std::cout << "data_type :" << b << std::endl;
+        std::cout << "tmp_type  :" << c << std::endl;
+
         PADDLE_ENFORCE(
             tmp == *data_type || *data_type == default_data_type,
             platform::errors::InvalidArgument(
diff --git a/paddle/fluid/operators/optimizers/lars_momentum_op.cc b/paddle/fluid/operators/optimizers/lars_momentum_op.cc
@@ -13,11 +13,110 @@ See the License for the specific language governing permissions and
 limitations under the License. */
 
 #include "paddle/fluid/operators/optimizers/lars_momentum_op.h"
-#include "paddle/fluid/operators/optimizers/momentum_op.h"
 
 namespace paddle {
 namespace operators {
 
+class LarsMomentumOp : public framework::OperatorWithKernel {
+ public:
+  using framework::OperatorWithKernel::OperatorWithKernel;
+
+ protected:
+  void InferShape(framework::InferShapeContext* ctx) const override {
+    PADDLE_ENFORCE_EQ(ctx->HasInputs("Param"), true,
+                      platform::errors::NotFound(
+                          "Inputs(param) of LarsMomentum should not be null."));
+    PADDLE_ENFORCE_EQ(ctx->HasInputs("Grad"), true,
+                      platform::errors::NotFound(
+                          "Input(grad) of LarsMomentum should not be null."));
+    PADDLE_ENFORCE_EQ(
+        ctx->HasInputs("Velocity"), true,
+        platform::errors::NotFound(
+            "Inputs(velocity) of LarsMomentum should not be null."));
+    PADDLE_ENFORCE_EQ(
+        ctx->HasInputs("LearningRate"), true,
+        platform::errors::NotFound(
+            "Input(LearningRate) of LarsMomentum should not be null."));
+    PADDLE_ENFORCE_EQ(
+        ctx->GetInputsVarType("Param").front(),
+        framework::proto::VarType::LOD_TENSOR,
+        platform::errors::InvalidArgument(
+            "The input var's type should be LoDTensor, but the received is %s",
+            ctx->GetInputsVarType("Param").front()));
+
+    PADDLE_ENFORCE_EQ(ctx->HasOutputs("ParamOut"), true,
+                      platform::errors::NotFound(
+                          "Output(ParamOut) of Momentum should not be null."));
+    PADDLE_ENFORCE_EQ(
+        ctx->HasOutputs("VelocityOut"), true,
+        platform::errors::NotFound(
+            "Output(VelocityOut) of Momentum should not be null."));
+
+    auto lr_dims = ctx->GetInputsDim("LearningRate");
+    for (size_t i = 0; i < lr_dims.size(); ++i) {
+      PADDLE_ENFORCE_NE(framework::product(lr_dims[i]), 0,
+                        platform::errors::InvalidArgument(
+                            "Maybe the Input variable LearningRate has not "
+                            "been initialized. You may need to confirm "
+                            "whether exe.run(startup_program) is put "
+                            "after optimizer.minimize function."));
+      PADDLE_ENFORCE_EQ(framework::product(lr_dims[i]), 1,
+                        platform::errors::InvalidArgument(
+                            "Learning_rate should be a scalar. But Received "
+                            "LearningRate's dim [%s]",
+                            framework::product(lr_dims[i])));
+    }
+
+    auto param_dim = ctx->GetInputsDim("Param");
+    auto grad_dim = ctx->GetInputsDim("Grad");
+    auto velocity_dim = ctx->GetInputsDim("Velocity");
+    PADDLE_ENFORCE_EQ(
+        param_dim.size(), grad_dim.size(),
+        platform::errors::InvalidArgument(
+            "Param and Grad input of LarsMomentumOp should have the same "
+            "quantity. But number of Param is [%d] and Grad is [%d].",
+            param_dim.size(), grad_dim.size()));
+    PADDLE_ENFORCE_EQ(
+        param_dim.size(), velocity_dim.size(),
+        platform::errors::InvalidArgument(
+            "Param and Velocity input of LarsMomentumOp should have the same "
+            "quantity. But number of Param is [%d] and Velocity is [%d].",
+            param_dim.size(), velocity_dim.size()));
+
+    if (ctx->GetInputsVarType("Grad")[0] ==
+        framework::proto::VarType::LOD_TENSOR) {
+      for (size_t i = 0; i < param_dim.size(); ++i) {
+        PADDLE_ENFORCE_EQ(
+            param_dim[i], grad_dim[i],
+            platform::errors::InvalidArgument(
+                "Param and Grad input of MomentumOp should have the same "
+                "dimension. But received Param's dim [%s] and Grad's dim [%s].",
+                param_dim[i], grad_dim[i]));
+        PADDLE_ENFORCE_EQ(
+            param_dim[i], velocity_dim[i],
+            platform::errors::InvalidArgument(
+                "Param and Velocity of MomentumOp should have the same "
+                "dimension. But received Param's dim [%s] and Velocity [%s].",
+                param_dim[i], velocity_dim[i]));
+      }
+    }
+
+    ctx->SetOutputsDim("ParamOut", param_dim);
+    ctx->SetOutputsDim("VelocityOut", param_dim);
+    if (ctx->HasOutputs("MasterParamOut")) {
+      ctx->SetOutputsDim("MasterParamOut", param_dim);
+    }
+  }
+
+ protected:
+  framework::OpKernelType GetExpectedKernelType(
+      const framework::ExecutionContext& ctx) const override {
+    auto input_data_type =
+        OperatorWithKernel::IndicateVarDataType(ctx, "Param");
+    return framework::OpKernelType(input_data_type, ctx.GetPlace());
+  }
+};
+
 class LarsMomentumOpMaker : public framework::OpProtoAndCheckerMaker {
  public:
   void Make() override {
@@ -104,7 +203,7 @@ class LarsMomentumOpVarTypeInference : public framework::VarTypeInference {
 
 namespace ops = paddle::operators;
 REGISTER_OPERATOR(
-    lars_momentum, ops::MomentumOp, ops::LarsMomentumOpMaker,
+    lars_momentum, ops::LarsMomentumOp, ops::LarsMomentumOpMaker,
     paddle::framework::EmptyGradOpMaker<paddle::framework::OpDesc>,
     paddle::framework::EmptyGradOpMaker<paddle::imperative::OpBase>,
     ops::LarsMomentumOpVarTypeInference);
diff --git a/paddle/fluid/operators/optimizers/lars_momentum_op.cu b/paddle/fluid/operators/optimizers/lars_momentum_op.cu
@@ -413,28 +413,29 @@ class LarsMomentumOpCUDAKernel : public framework::OpKernel<T> {
           reinterpret_cast<void*>(MomentumLarsKernel<T, MT>), grid_real,
           LARS_BLOCK_SIZE, cuda_param, 0, cuda_ctx.stream());
     } else {
-      auto param = ctx.Input<framework::LoDTensor>("Param");
-      auto grad = ctx.Input<framework::LoDTensor>("Grad");
-      auto velocity = ctx.Input<framework::LoDTensor>("Velocity");
-      auto learning_rate = ctx.Input<framework::LoDTensor>("LearningRate");
-      auto param_out = ctx.Output<framework::LoDTensor>("ParamOut");
-      auto velocity_out = ctx.Output<framework::LoDTensor>("VelocityOut");
-
-      auto* p = param->data<T>();
-      auto* g = grad->data<T>();
-      auto* v = velocity->data<MT>();
-      auto* lr = learning_rate->data<MT>();
-      auto* p_out = param_out->mutable_data<T>(ctx.GetPlace());
-      auto* v_out = velocity_out->mutable_data<MT>(ctx.GetPlace());
+      auto param = ctx.MultiInput<framework::LoDTensor>("Param");
+      auto grad = ctx.MultiInput<framework::LoDTensor>("Grad");
+      auto velocity = ctx.MultiInput<framework::LoDTensor>("Velocity");
+      auto learning_rate = ctx.MultiInput<framework::LoDTensor>("LearningRate");
+      auto param_out = ctx.MultiOutput<framework::LoDTensor>("ParamOut");
+      auto velocity_out = ctx.MultiOutput<framework::LoDTensor>("VelocityOut");
+
+      auto* p = param[0]->data<T>();
+      auto* g = grad[0]->data<T>();
+      auto* v = velocity[0]->data<MT>();
+      auto* lr = learning_rate[0]->data<MT>();
+      auto* p_out = param_out[0]->mutable_data<T>(ctx.GetPlace());
+      auto* v_out = velocity_out[0]->mutable_data<MT>(ctx.GetPlace());
       const MT* master_p = nullptr;
       MT* master_p_out = nullptr;
       if (multi_precision) {
-        auto master_param = ctx.Input<framework::Tensor>("MasterParam");
-        auto master_param_out = ctx.Output<framework::Tensor>("MasterParamOut");
-        master_p = master_param->data<MT>();
-        master_p_out = master_param_out->mutable_data<MT>(ctx.GetPlace());
+        auto master_param = ctx.MultiInput<framework::Tensor>("MasterParam");
+        auto master_param_out =
+            ctx.MultiOutput<framework::Tensor>("MasterParamOut");
+        master_p = master_param[0]->data<MT>();
+        master_p_out = master_param_out[0]->mutable_data<MT>(ctx.GetPlace());
       }
-      int64_t numel = param->numel();
+      int64_t numel = param[0]->numel();
       cudaOccupancyMaxActiveBlocksPerMultiprocessor(
           &num_blocks_per_sm, MomentumLarsKernel<T, MT>, LARS_BLOCK_SIZE,
           sizeof(MT) << 1);