[CINN] Fix performance issue on gemm fusion in float32 datatype related to fused_gemm_epilogue_pass (#71226)

A-nnonymous · web-flow · commit 4907ed52235b · 2025-02-23T22:58:50.000+08:00
* [CINN] Fix performance issue on gemm fusion in float32 due to fuse_gemm_epilogue_pass.

* Modified original fp32 unittest to fp16, in order to perform check.

* polish code

* Modified python pass unittest to perform proper checks.
diff --git a/paddle/fluid/pir/transforms/gpu/fused_gemm_epilogue_pass.cc b/paddle/fluid/pir/transforms/gpu/fused_gemm_epilogue_pass.cc
@@ -36,6 +36,12 @@ class FusedLinearPattern
   bool MatchAndRewrite(paddle::dialect::MatmulOp matmul,
                        pir::PatternRewriter &rewriter) const override {
     auto matmul_out = matmul->result(0);
+    // The datatype(without auto-promote) of matmul should not be float32 type,
+    // which may cause performance issue in some cases.
+    if (pir::GetDataTypeFromValue(matmul.x()).isa<pir::Float32Type>()) {
+      return false;
+    }
+
     // The result of matmul can only be uniquely used by an add OP.
     if (matmul_out.use_count() != 1) {
       return false;
@@ -99,6 +105,11 @@ class FusedLinearGradPattern
                        pir::PatternRewriter &rewriter) const override {
     auto matmul_grad_out = matmul_grad->operand_source(2);
 
+    // The datatype(without auto-promote) of matmul should not be float32 type,
+    // which may cause performance issue in some cases.
+    if (pir::GetDataTypeFromValue(matmul_grad.x()).isa<pir::Float32Type>()) {
+      return false;
+    }
     paddle::dialect::AddGradOp add_grad;
     if (add_grad = matmul_grad_out.defining_op()
                        ->dyn_cast<paddle::dialect::AddGradOp>()) {
@@ -175,6 +186,11 @@ class FusedLinearGradSinglePattern
                        pir::PatternRewriter &rewriter) const override {
     auto dout = matmul_grad->operand_source(2);
 
+    // The datatype(without auto-promote) of matmul should not be float32 type,
+    // which may cause performance issue in some cases.
+    if (pir::GetDataTypeFromValue(matmul_grad.x()).isa<pir::Float32Type>()) {
+      return false;
+    }
     if (pir::GetShapeFromValue(matmul_grad->operand_source(1)).size() != 2) {
       return false;
     }
diff --git a/test/cpp/pir/pattern_rewrite/drr_fuse_linear_test.cc b/test/cpp/pir/pattern_rewrite/drr_fuse_linear_test.cc
@@ -25,24 +25,27 @@
 
 void BuildProgram(pir::Builder &builder) {  // NOLINT
   paddle::dialect::FullOp full_input_op1 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{1, 512, 64},
-                                             1.5);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{1, 512, 64}, 1.5, phi::DataType::FLOAT16);
   // linear 1
   paddle::dialect::FullOp full_weight_op1 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{64, 64}, 1.5);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{64, 64}, 1.5, phi::DataType::FLOAT16);
   paddle::dialect::FullOp full_bias_op1 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{64}, 1.0);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{64}, 1.0, phi::DataType::FLOAT16);
   paddle::dialect::MatmulOp matmul_op1 =
       builder.Build<paddle::dialect::MatmulOp>(full_input_op1.out(),
                                                full_weight_op1.out());
   paddle::dialect::AddOp add_op1 = builder.Build<paddle::dialect::AddOp>(
       matmul_op1.out(), full_bias_op1.out());
   // linear 2
   paddle::dialect::FullOp full_weight_op2 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{64, 128},
-                                             1.5);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{64, 128}, 1.5, phi::DataType::FLOAT16);
   paddle::dialect::FullOp full_bias_op2 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{128}, 1.0);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{128}, 1.0, phi::DataType::FLOAT16);
   paddle::dialect::MatmulOp matmul_op2 =
       builder.Build<paddle::dialect::MatmulOp>(add_op1.out(),
                                                full_weight_op2.out());
@@ -52,10 +55,11 @@ void BuildProgram(pir::Builder &builder) {  // NOLINT
       builder.Build<paddle::dialect::ReluOp>(add_op2.out());
   // linear 3
   paddle::dialect::FullOp full_weight_op3 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{128, 64},
-                                             1.5);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{128, 64}, 1.5, phi::DataType::FLOAT16);
   paddle::dialect::FullOp full_bias_op3 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{64}, 1.0);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{64}, 1.0, phi::DataType::FLOAT16);
   paddle::dialect::MatmulOp matmul_op3 =
       builder.Build<paddle::dialect::MatmulOp>(relu_op.out(),
                                                full_weight_op3.out());
@@ -65,9 +69,11 @@ void BuildProgram(pir::Builder &builder) {  // NOLINT
       builder.Build<paddle::dialect::GeluOp>(add_op3.out());
   // linear 4
   paddle::dialect::FullOp full_weight_op4 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{64, 64}, 1.5);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{64, 64}, 1.5, phi::DataType::FLOAT16);
   paddle::dialect::FullOp full_bias_op4 =
-      builder.Build<paddle::dialect::FullOp>(std::vector<int64_t>{64}, 1.0);
+      builder.Build<paddle::dialect::FullOp>(
+          std::vector<int64_t>{64}, 1.0, phi::DataType::FLOAT16);
   paddle::dialect::MatmulOp matmul_op4 =
       builder.Build<paddle::dialect::MatmulOp>(gelu_op1.out(),
                                                full_weight_op4.out());
@@ -78,7 +84,7 @@ void BuildProgram(pir::Builder &builder) {  // NOLINT
 
   // backward
   paddle::dialect::FullOp full_grad_op = builder.Build<paddle::dialect::FullOp>(
-      std::vector<int64_t>{1, 512, 64}, 1.0);
+      std::vector<int64_t>{1, 512, 64}, 1.0, phi::DataType::FLOAT16);
 
   paddle::dialect::GeluGradOp gelu_op2_grad =
       builder.Build<paddle::dialect::GeluGradOp>(
diff --git a/test/ir/pir/fused_pass/test_fused_gemm_epilogue_pass.py b/test/ir/pir/fused_pass/test_fused_gemm_epilogue_pass.py
@@ -52,20 +52,20 @@ def test_fused_gemm_epilogue_add(self):
         main_program = paddle.base.Program()
         with paddle.pir_utils.IrGuard():
             x_np = np.random.normal(3, 2.5, size=(1024, 1024)).astype(
-                np.float32
+                np.float16
             )
             y_np = x_np
-            z_np = np.random.normal(3, 2.5, size=(1024)).astype(np.float32)
+            z_np = np.random.normal(3, 2.5, size=(1024)).astype(np.float16)
             with paddle.base.program_guard(main_program):
                 with pir_op_role_guard(0), pir_chunk_id_guard(0):
                     x_ = paddle.static.data(
-                        name="x", shape=[1024, 1024], dtype="float32"
+                        name="x", shape=[1024, 1024], dtype="float16"
                     )
                     y_ = paddle.static.data(
-                        name="y", shape=[1024, 1024], dtype="float32"
+                        name="y", shape=[1024, 1024], dtype="float16"
                     )
                     z_ = paddle.static.data(
-                        name="z", shape=[1024], dtype="float32"
+                        name="z", shape=[1024], dtype="float16"
                     )
                     x_.stop_gradient = False
                     y_.stop_gradient = False