[PIR inference]update add_rms_norm pass (#63154)

bukejiyu · web-flow · commit c1f5c39baee6 · 2024-04-02T16:27:31.000+08:00
* update add_rms_norm

* update

* fix timeout
diff --git a/paddle/fluid/inference/api/paddle_analysis_config.h b/paddle/fluid/inference/api/paddle_analysis_config.h
@@ -1250,8 +1250,16 @@ struct PD_INFER_DECL AnalysisConfig {
                           bool custom_pass_only = false);
 
   ///
-  /// \brief Set passmanager opt level.Pass level lower than
-  /// opt level which will be added to passmanager
+  /// \brief Set pir Optimization level.
+  /// \param opt_level The optimization level
+  /// The optimization Level in range [0,4], Default 2.
+  /// Higher optimization level allows the predictor to apply more passes.
+  /// If 0, Only basic pass support.
+  /// If 1, Additional support for functional pass.
+  /// If 2, Additional support the fusion logical pass,maybe affect precision
+  /// and speed.
+  /// If 3, support layout pass, etc.
+  /// If 4, add the radicaloptimization, maybe affect precision, etc.
   ///
   void SetOptimizationLevel(int opt_level);
 
diff --git a/paddle/fluid/pir/drr/src/rewrite_pattern.cc b/paddle/fluid/pir/drr/src/rewrite_pattern.cc
@@ -324,7 +324,11 @@ bool DrrRewritePattern::MatchFromOutputToInput(
     }
     return false;
   };
-
+  // Check whether Drr Tensor and IR Value is None.
+  const auto& IsNoneTensorAndValue = [](const Tensor* drr_input_tensor,
+                                        pir::Value ir_value) {
+    return drr_input_tensor->is_none() && ir_value == nullptr;
+  };
   // Step 1: Initialize DRR matched queue.
   bool matched = true;
   size_t step = 0;
@@ -348,7 +352,15 @@ bool DrrRewritePattern::MatchFromOutputToInput(
     auto ir_input_values = ir_node->operands_source();
     for (size_t i = 0; i < drr_input_tensors.size(); ++i) {
       if (drr_input_tensors[i]->is_none()) {
-        continue;
+        if (IsNoneTensorAndValue(drr_input_tensors[i], ir_input_values[i])) {
+          continue;
+        } else {
+          VLOG(8) << drr_node->name() << "Match failed:drr_input[" << i
+                  << "] !=  pir_intput[" << i << "] , drr_input_tensor[" << i
+                  << "] is None.";
+          matched = false;
+          break;
+        }
       }
       if (HasVisitedOperands(drr_input_tensors[i], ir_input_values[i])) {
         matched = false;
diff --git a/paddle/fluid/pir/transforms/gpu/add_norm_fuse_pass.cc b/paddle/fluid/pir/transforms/gpu/add_norm_fuse_pass.cc
@@ -37,7 +37,7 @@ class RmsNormFusePattern : public paddle::drr::DrrPatternBase {
 
   std::string name() const override { return "RmsNormFusePattern"; }
 
-  uint32_t benefit() const override { return 2; }
+  uint32_t benefit() const override { return 3; }
 
   void operator()(paddle::drr::DrrPatternContext *ctx) const override {
     paddle::drr::SourcePattern pat = ctx->SourcePattern();
@@ -139,7 +139,14 @@ class RmsNormFusePattern : public paddle::drr::DrrPatternBase {
 };
 
 class AddRmsNormFusePattern : public paddle::drr::DrrPatternBase {
+ private:
+  const bool extra_add_;
+
  public:
+  explicit AddRmsNormFusePattern(bool extra_add) : extra_add_(extra_add) {}
+
+  uint32_t benefit() const override { return extra_add_ ? 2 : 1; }
+
   std::string name() const override { return "AddRmsNormFusePattern"; }
 
   void operator()(paddle::drr::DrrPatternContext *ctx) const override {
@@ -157,16 +164,21 @@ class AddRmsNormFusePattern : public paddle::drr::DrrPatternBase {
                });
     pat.Tensor("add_out") = add(pat.Tensor("x"), pat.Tensor("residual"));
     pat_rms_norm({&pat.Tensor("add_out"),
-                  &pat.InputNoneTensor(),
+                  &pat.Tensor("bias"),
                   &pat.InputNoneTensor(),
                   &pat.Tensor("w"),
                   &pat.InputNoneTensor()},
                  {&pat.Tensor("rms_norm_out"),
                   &pat.Tensor("residual_out_0"),
                   &pat.Tensor("inv_var_0")});
-
+    // TODO(bukejiyu) :DRR support matching placeholder op,
+    // the following needs to be deleted
+    if (extra_add_) {
+      const auto &add1 = pat.Op(paddle::dialect::AddOp::name());
+      pat.Tensor("add_out1") =
+          add1(pat.Tensor("add_out"), pat.Tensor("any_tensor"));
+    }
     paddle::drr::ResultPattern res = pat.ResultPattern();
-
     const auto &res_rms_norm =
         res.Op(paddle::dialect::RmsNormOp::name(),
                {
@@ -181,19 +193,25 @@ class AddRmsNormFusePattern : public paddle::drr::DrrPatternBase {
     res_rms_norm(
         {
             &res.Tensor("x"),
-            &res.InputNoneTensor(),
+            &res.Tensor("bias"),
             &res.Tensor("residual"),
             &res.Tensor("w"),
             &res.InputNoneTensor(),
         },
         {&res.Tensor("rms_norm_out"),
-         &res.Tensor("residual_out"),
+         &res.Tensor("add_out"),
          &res.Tensor("inv_var")});
   }
 };
 
 class AddLayerNormFusePattern : public paddle::drr::DrrPatternBase {
+ private:
+  const bool extra_add_;
+
  public:
+  explicit AddLayerNormFusePattern(bool extra_add) : extra_add_(extra_add) {}
+
+  uint32_t benefit() const override { return extra_add_ ? 2 : 1; }
   std::string name() const override { return "AddLayerNormFusePattern"; }
 
   void operator()(paddle::drr::DrrPatternContext *ctx) const override {
@@ -204,11 +222,17 @@ class AddLayerNormFusePattern : public paddle::drr::DrrPatternBase {
                {{"epsilon", pat.Attr("epsilon")},
                 {"begin_norm_axis", pat.Attr("begin_norm_axis")}});
     pat.Tensor("add_out") = add(pat.Tensor("x"), pat.Tensor("residual"));
-    layer_norm(
-        {&pat.Tensor("add_out"), &pat.Tensor("w"), &pat.InputNoneTensor()},
-        {&pat.Tensor("layer_norm_out"),
-         &pat.Tensor("mean_out_0"),
-         &pat.Tensor("variance_out_0")});
+    layer_norm({&pat.Tensor("add_out"), &pat.Tensor("w"), &pat.Tensor("bias")},
+               {&pat.Tensor("layer_norm_out"),
+                &pat.Tensor("mean_out_0"),
+                &pat.Tensor("variance_out_0")});
+    // TODO(bukejiyu) :DRR support matching placeholder op,
+    // the following needs to be deleted
+    if (extra_add_) {
+      const auto &add1 = pat.Op(paddle::dialect::AddOp::name());
+      pat.Tensor("add_out1") =
+          add1(pat.Tensor("add_out"), pat.Tensor("any_tensor"));
+    }
 
     paddle::drr::ResultPattern res = pat.ResultPattern();
     const auto &fuse_layer_norm =
@@ -224,13 +248,13 @@ class AddLayerNormFusePattern : public paddle::drr::DrrPatternBase {
     fuse_layer_norm(
         {
             &res.Tensor("x"),
-            &res.InputNoneTensor(),
+            &res.Tensor("bias"),
             &res.Tensor("residual"),
             &res.Tensor("w"),
             &res.InputNoneTensor(),
         },
         {&res.Tensor("layer_norm_out"),
-         &res.Tensor("residual_out"),
+         &res.Tensor("add_out"),
          &res.Tensor("mean_out"),
          &res.Tensor("variance_out")});
   }
@@ -248,16 +272,19 @@ class AddNormFusePass : public pir::PatternRewritePass {
     //                                mul --->rms_norm
     // w-----------------------------
     bool is_half_weight = true;
+    bool extra_add = true;
     ps.Add(paddle::drr::Create<RmsNormFusePattern>(context, !is_half_weight));
     ps.Add(paddle::drr::Create<RmsNormFusePattern>(context, is_half_weight));
     // x--------
     //           add-rms_norm ---> rms_norm
     // residual-
-    ps.Add(paddle::drr::Create<AddRmsNormFusePattern>(context));
+    ps.Add(paddle::drr::Create<AddRmsNormFusePattern>(context, !extra_add));
+    ps.Add(paddle::drr::Create<AddRmsNormFusePattern>(context, extra_add));
     // x--------
     //           add-layer_norm ----> fused_bias_residual_layernorm
     // residual-
-    ps.Add(paddle::drr::Create<AddLayerNormFusePattern>(context));
+    ps.Add(paddle::drr::Create<AddLayerNormFusePattern>(context, !extra_add));
+    ps.Add(paddle::drr::Create<AddLayerNormFusePattern>(context, extra_add));
     return ps;
   }
 };
diff --git a/test/ir/pir/fused_pass/CMakeLists.txt b/test/ir/pir/fused_pass/CMakeLists.txt
@@ -19,6 +19,7 @@ foreach(target ${TEST_INTERP_CASES})
 endforeach()
 
 set_tests_properties(test_pir_multihead_matmul_fuse_pass PROPERTIES TIMEOUT 100)
+set_tests_properties(test_add_norm_fuse_pass PROPERTIES TIMEOUT 300)
 if(WITH_CUTLASS)
   set_tests_properties(test_fused_weight_only_linear_pass PROPERTIES TIMEOUT
                                                                      300)
diff --git a/test/ir/pir/fused_pass/test_add_norm_fuse_pass.py b/test/ir/pir/fused_pass/test_add_norm_fuse_pass.py
@@ -176,7 +176,7 @@ def test_check_output(self):
         self.check_pass_correct(atol=1e-3, rtol=1e-3)
 
 
-class TestAddRmsNormFusePattern(TestRmsNormFusePattern):
+class TestAddRmsNormFusePatternWithResidual(TestRmsNormFusePattern):
     r"""
         x         residual       w
         |           |
@@ -222,12 +222,25 @@ def sample_program(self):
                                         np.random.random(w_shape).astype(w_type)
                                     ),
                                 )
+                                w1 = create_parameter(
+                                    name="w1",
+                                    shape=w_shape,
+                                    dtype=w_type,
+                                    initializer=paddle.nn.initializer.Assign(
+                                        np.random.random([4096, 4096]).astype(
+                                            w_type
+                                        )
+                                    ),
+                                )
                                 add_out = paddle.add(residual, x)
+                                add_out_1 = add_out
                                 variance = add_out.pow(2).mean(-1, keepdim=True)
                                 add_out = (
                                     paddle.rsqrt(variance + 1e-6) * add_out
                                 )
-                                out = add_out * w
+                                mul_out = add_out * w
+                                matmul_out = paddle.matmul(mul_out, w1)
+                                out = paddle.add(add_out_1, matmul_out)
                                 out = paddle.assign(out)
                                 self.pass_list = ['add_norm_fuse_pass']
                                 self.feeds = {
@@ -240,7 +253,6 @@ def sample_program(self):
                                 }
                                 self.fetch_list = [out]
                                 self.valid_op_map = {
-                                    "pd_op.add": 0,
                                     "pd_op.pow": 0,
                                     "pd_op.mean": 0,
                                     "pd_op.full": 0,
@@ -288,13 +300,26 @@ def sample_program(self):
                                         mean=0.0, std=2.0
                                     ),
                                 )
+                                w1 = create_parameter(
+                                    name="w1",
+                                    shape=w_shape,
+                                    dtype=w_type,
+                                    initializer=paddle.nn.initializer.Assign(
+                                        np.random.random([4096, 4096]).astype(
+                                            w_type
+                                        )
+                                    ),
+                                )
                                 add_out = paddle.add(residual, x)
+                                add_out_1 = add_out
                                 layer_norm = paddle.nn.LayerNorm(
                                     add_out.shape[-1:],
                                     epsilon=epilson,
                                     weight_attr=w_attr,
                                 )
-                                out = layer_norm(add_out)
+                                layer_norm_out = layer_norm(add_out)
+                                matmul_out = paddle.matmul(layer_norm_out, w1)
+                                out = paddle.add(add_out_1, matmul_out)
                                 out = paddle.assign(out)
                                 self.pass_list = ['add_norm_fuse_pass']
                                 self.feeds = {
@@ -307,13 +332,15 @@ def sample_program(self):
                                 }
                                 self.fetch_list = [out]
                                 self.valid_op_map = {
-                                    "pd_op.add": 0,
                                     "pd_op.layer_norm": 0,
                                     "pd_op.fused_bias_residual_layernorm": 1,
                                 }
 
                                 yield [main_prog, start_prog], False
 
+    def test_check_output(self):
+        self.check_pass_correct(atol=1e-3, rtol=1e-3)
+
 
 if __name__ == "__main__":
     unittest.main()