[PIR] delete python use_mkldnn part2 (#59554)

wanghuancoder · web-flow · commit 93fda0acb16e · 2023-12-11T19:38:07.000+08:00
* delete python use_mkldnn part2
diff --git a/python/paddle/base/backward.py b/python/paddle/base/backward.py
@@ -478,7 +478,7 @@ def _accumulate_gradients_by_sum_op_(
             "sum",
             {"X": renamed_vars[var_name]},
             {"Out": [var_name]},
-            {"use_mkldnn": False, "op_device": op_device},
+            {"op_device": op_device},
         )
     )
     renamed_vars[var_name] = [var_name]
@@ -505,7 +505,7 @@ def _accumulate_gradients_by_add_ops_(
                 "grad_add",
                 {"X": [x_name], "Y": [y_name]},
                 {"Out": [out_name]},
-                {"use_mkldnn": False, "op_device": op_device},
+                {"op_device": op_device},
             )
         )
     renamed_vars[var_name] = [var_name]
diff --git a/python/paddle/base/dygraph_utils.py b/python/paddle/base/dygraph_utils.py
@@ -18,15 +18,12 @@
 
 
 @dygraph_only
-def _append_activation_in_dygraph(
-    input, act=None, use_cudnn=None, use_mkldnn=None
-):
+def _append_activation_in_dygraph(input, act=None, use_cudnn=None):
     """Append activation in dygraph mode.
 
         Args:
             input: the input variable.
             act: activation type
-            use_mkldnn: if use mkldnn
             use_cudnn: if use cudnn
 
     Return the Variable after append activation
@@ -37,8 +34,6 @@ def _append_activation_in_dygraph(
     attrs = ()
     if use_cudnn:
         attrs = ('use_cudnn', use_cudnn)
-    if use_mkldnn:
-        attrs += ('use_mkldnn', use_mkldnn)
 
     act_op = getattr(_legacy_C_ops, act)
     return act_op(input, *attrs)
diff --git a/python/paddle/base/layer_helper.py b/python/paddle/base/layer_helper.py
@@ -20,7 +20,6 @@
 from .dygraph_utils import _append_activation_in_dygraph
 from .framework import (
     Parameter,
-    _global_flags,
     dtype_is_floating,
     in_dygraph_mode,
 )
@@ -156,16 +155,9 @@ def append_activation(self, input_var):
         if 'use_cudnn' in self.kwargs and self.kwargs.get('use_cudnn'):
             use_cudnn = self.kwargs.get('use_cudnn')
             act['use_cudnn'] = use_cudnn
-        use_mkldnn = self.kwargs.get(
-            'use_mkldnn', _global_flags().get("FLAGS_use_mkldnn", False)
-        )
-        if use_mkldnn:
-            act['use_mkldnn'] = use_mkldnn
         act_type = act.pop('type')
         if in_dygraph_mode():
-            res = _append_activation_in_dygraph(
-                input_var, act_type, use_cudnn, use_mkldnn
-            )
+            res = _append_activation_in_dygraph(input_var, act_type, use_cudnn)
             return res
         else:
             tmp = self.create_variable_for_type_inference(dtype=input_var.dtype)
diff --git a/python/paddle/base/layers/layer_function_generator.py b/python/paddle/base/layers/layer_function_generator.py
@@ -92,8 +92,6 @@ def _generate_doc_string_(
         buf.write('\n')
 
     skip_attrs = OpProtoHolder.generated_op_attr_names()
-    # attr use_mkldnn and is_test also should not be visible to users.
-    skip_attrs.add("use_mkldnn")
     skip_attrs.add("is_test")
     skip_attrs.add("use_cudnn")
 
diff --git a/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py b/python/paddle/distributed/fleet/meta_optimizers/sharding_optimizer.py
@@ -1815,7 +1815,6 @@ def create_persistable_gradients_and_insert_merge_ops(
                 outputs={'Out': gradient_merge_var},
                 attrs={
                     'axis': -1,
-                    'use_mkldnn': False,
                     OP_ROLE_KEY: OpRole.Backward,
                 },
             )
@@ -1884,7 +1883,6 @@ def _create_gm_cond(self, main_block):
                 attrs={
                     'axis': -1,
                     OP_ROLE_KEY: OpRole.Optimize,
-                    'use_mkldnn': False,
                 },
             )
 
diff --git a/python/paddle/distributed/passes/auto_parallel_gradient_merge.py b/python/paddle/distributed/passes/auto_parallel_gradient_merge.py
@@ -128,7 +128,6 @@ def _get_gm_cond_var(main_program, k_steps, dist_context):
             outputs={'Out': step_var},
             attrs={
                 'axis': -1,
-                'use_mkldnn': False,
                 OP_ROLE_KEY: OpRole.Backward,
             },
         )
@@ -235,7 +234,6 @@ def _append_gradient_merge_backward_op(
                     outputs={'Out': gradient_merge_var},
                     attrs={
                         'axis': -1,
-                        'use_mkldnn': False,
                         OP_ROLE_KEY: OpRole.Backward,
                     },
                 )
diff --git a/python/paddle/distributed/transpiler/distribute_transpiler.py b/python/paddle/distributed/transpiler/distribute_transpiler.py
@@ -2198,7 +2198,7 @@ def _create_table_optimize_block(
                 type="sum",
                 inputs={"X": pserver_side_table_grad_list},
                 outputs={"Out": [grad_var]},
-                attrs={"use_mkldnn": False},
+                attrs={},
             )
         else:
             # in async_mode, for table gradient, it also need to be split to each parameter server
@@ -2490,7 +2490,7 @@ def _append_pserver_grad_merge_ops(
                 type="sum",
                 inputs={"X": vars2merge},
                 outputs={"Out": merged_var},
-                attrs={"use_mkldnn": False},
+                attrs={},
             )
             optimize_block.append_op(
                 type="scale",
diff --git a/python/paddle/incubate/asp/asp.py b/python/paddle/incubate/asp/asp.py
@@ -910,7 +910,6 @@ def _insert_sparse_mask_ops(cls, main_program, params):
                     outputs={'Out': param},
                     attrs={
                         'axis': -1,
-                        'use_mkldnn': False,
                         OP_ROLE_KEY: int(OpRole.Optimize),
                     },
                 )
diff --git a/python/paddle/incubate/distributed/fleet/parameter_server/ir/pserver_pass.py b/python/paddle/incubate/distributed/fleet/parameter_server/ir/pserver_pass.py
@@ -445,7 +445,7 @@ def _append_pserver_grad_merge_ops(
                 type="sum",
                 inputs={"X": vars2merge},
                 outputs={"Out": merged_var},
-                attrs={"use_mkldnn": False},
+                attrs={},
             )
             optimize_block.append_op(
                 type="scale",
diff --git a/python/paddle/incubate/optimizer/gradient_merge.py b/python/paddle/incubate/optimizer/gradient_merge.py
@@ -233,7 +233,7 @@ def _get_gm_cond_var(self, main_block):
                 type='elementwise_mod',
                 inputs={'X': step_var, 'Y': k_step_var},
                 outputs={'Out': step_var},
-                attrs={'axis': -1, 'use_mkldnn': False},
+                attrs={'axis': -1},
             )
 
             # cond_var = (step_var == 0)
@@ -302,7 +302,7 @@ def apply_gradients(self, params_grads):
                 type="elementwise_add",
                 inputs={'X': grad, 'Y': gradient_merge_var},
                 outputs={'Out': gradient_merge_var},
-                attrs={'axis': -1, 'use_mkldnn': False},
+                attrs={'axis': -1},
             )
             self._add_gm_op_role_var(
                 new_grad_op, param, gradient_merge_var, cond
diff --git a/python/paddle/nn/functional/conv.py b/python/paddle/nn/functional/conv.py
@@ -120,7 +120,6 @@ def _conv_nd(
     channel_dim=1,
     op_type="conv2d",
     use_cudnn=True,
-    use_mkldnn=False,
     name=None,
 ):
     # Due to the poor performance of NHWC, we transpose the input to NCHW.
@@ -203,8 +202,6 @@ def _conv_nd(
             groups,
             'use_cudnn',
             use_cudnn,
-            'use_mkldnn',
-            use_mkldnn,
             'fuse_relu_before_depthwise_conv',
             False,
             "padding_algorithm",
@@ -225,7 +222,6 @@ def _conv_nd(
             'dilations': dilation,
             'groups': groups,
             'use_cudnn': use_cudnn,
-            'use_mkldnn': use_mkldnn,
             'fuse_relu_before_depthwise_conv': False,
             "padding_algorithm": padding_algorithm,
             "data_format": data_format,
@@ -249,7 +245,7 @@ def _conv_nd(
                     type='elementwise_add',
                     inputs={'X': [pre_bias], 'Y': [bias]},
                     outputs={'Out': [out]},
-                    attrs={'axis': -1, 'use_mkldnn': use_mkldnn},
+                    attrs={'axis': -1},
                 )
             else:
                 assert len(x_shape) > len(
@@ -264,7 +260,7 @@ def _conv_nd(
                     type='elementwise_add',
                     inputs={'X': [pre_bias], 'Y': [bias]},
                     outputs={'Out': [out]},
-                    attrs={'axis': -1, 'use_mkldnn': use_mkldnn},
+                    attrs={'axis': -1},
                 )
         else:
             out = pre_bias
@@ -496,7 +492,6 @@ def conv1d(
             'dilations': dilation,
             'groups': groups,
             'use_cudnn': use_cudnn,
-            'use_mkldnn': False,
             'fuse_relu_before_depthwise_conv': False,
             "padding_algorithm": padding_algorithm,
             "data_format": conv2d_data_format,
@@ -733,8 +728,6 @@ def conv2d(
             else:
                 return pre_bias
 
-    use_mkldnn = _global_flags()["FLAGS_use_mkldnn"]
-
     if (
         is_compiled_with_cuda()
         and get_flags("FLAGS_conv2d_disable_cudnn")[
@@ -756,7 +749,6 @@ def conv2d(
         channel_dim,
         l_type,
         use_cudnn,
-        use_mkldnn,
         name,
     )
 
@@ -1322,7 +1314,7 @@ def conv2d_transpose(
                     type='elementwise_add',
                     inputs={'X': [pre_bias], 'Y': [bias]},
                     outputs={'Out': [out]},
-                    attrs={'axis': -1, 'use_mkldnn': False},
+                    attrs={'axis': -1},
                 )
             else:
                 assert len(x_shape) > len(
@@ -1336,7 +1328,7 @@ def conv2d_transpose(
                     type='elementwise_add',
                     inputs={'X': [pre_bias], 'Y': [bias]},
                     outputs={'Out': [out]},
-                    attrs={'axis': -1, 'use_mkldnn': False},
+                    attrs={'axis': -1},
                 )
         else:
             out = pre_bias
@@ -1517,7 +1509,6 @@ def conv3d(
         channel_dim,
         op_type,
         use_cudnn,
-        False,
         name,
     )
 
diff --git a/python/paddle/nn/functional/norm.py b/python/paddle/nn/functional/norm.py
@@ -239,7 +239,6 @@ def batch_norm(
             "epsilon": epsilon,
             "is_test": not training,
             "data_layout": data_format,
-            "use_mkldnn": False,
             "fuse_with_relu": False,
             "use_global_stats": use_global_stats,
             "trainable_statistics": trainable_statistics,
diff --git a/python/paddle/nn/functional/pooling.py b/python/paddle/nn/functional/pooling.py
@@ -288,7 +288,6 @@ def avg_pool1d(
                 "padding_algorithm": padding_algorithm,
                 "use_cudnn": True,
                 "ceil_mode": ceil_mode,
-                "use_mkldnn": False,
                 "exclusive": exclusive,
                 "data_format": data_format,
             },
@@ -415,7 +414,6 @@ def avg_pool2d(
                 "padding_algorithm": padding_algorithm,
                 "use_cudnn": True,
                 "ceil_mode": ceil_mode,
-                "use_mkldnn": False,
                 "exclusive": exclusive,
                 "data_format": data_format,
             },
@@ -542,7 +540,6 @@ def avg_pool3d(
                 "padding_algorithm": padding_algorithm,
                 "use_cudnn": True,
                 "ceil_mode": ceil_mode,
-                "use_mkldnn": False,
                 "exclusive": exclusive,
                 "data_format": data_format,
             },
@@ -677,7 +674,6 @@ def max_pool1d(
                 "padding_algorithm": padding_algorithm,
                 "use_cudnn": True,
                 "ceil_mode": ceil_mode,
-                "use_mkldnn": False,
                 "exclusive": True,
                 "data_format": data_format,
             },
@@ -1303,7 +1299,6 @@ def max_pool2d(
                     "padding_algorithm": padding_algorithm,
                     "use_cudnn": True,
                     "ceil_mode": ceil_mode,
-                    "use_mkldnn": False,
                     "exclusive": True,
                     "data_format": data_format,
                 },
@@ -1326,7 +1321,6 @@ def max_pool2d(
                     "padding_algorithm": padding_algorithm,
                     "use_cudnn": True,
                     "ceil_mode": ceil_mode,
-                    "use_mkldnn": False,
                     "exclusive": True,
                     "data_format": data_format,
                 },
@@ -1468,7 +1462,6 @@ def max_pool3d(
                 "padding_algorithm": padding_algorithm,
                 "use_cudnn": True,
                 "ceil_mode": ceil_mode,
-                "use_mkldnn": False,
                 "exclusive": False,
                 "data_format": data_format,
             },
diff --git a/python/paddle/nn/initializer/normal.py b/python/paddle/nn/initializer/normal.py
@@ -103,7 +103,6 @@ def forward(self, var, block=None):
                     "mean": self._mean,
                     "std": self._std_dev,
                     "seed": self._seed,
-                    "use_mkldnn": False,
                 },
                 stop_gradient=True,
             )
diff --git a/python/paddle/nn/layer/layers.py b/python/paddle/nn/layer/layers.py
@@ -38,7 +38,6 @@
     Parameter,
     Program,
     _current_expected_place as _get_device,
-    _global_flags,
     convert_np_dtype_to_dtype_,
     default_main_program,
     in_dygraph_mode,
@@ -266,14 +265,9 @@ def append_activation(self, input_var, act=None, use_cudnn=None):
 
         if (use_cudnn is not None) and use_cudnn:
             act['use_cudnn'] = use_cudnn
-        use_mkldnn = _global_flags()["FLAGS_use_mkldnn"]
-        if (use_mkldnn is not None) and use_mkldnn:
-            act['use_mkldnn'] = use_mkldnn
         act_type = act.pop('type')
         if in_dygraph_mode():
-            res = _append_activation_in_dygraph(
-                input_var, act_type, use_cudnn, use_mkldnn
-            )
+            res = _append_activation_in_dygraph(input_var, act_type, use_cudnn)
             return res
         else:
             tmp = self.create_variable_for_type_inference(dtype=input_var.dtype)
diff --git a/python/paddle/nn/layer/norm.py b/python/paddle/nn/layer/norm.py
@@ -970,7 +970,6 @@ def __init__(
         self._param_attr = param_attr
         self._bias_attr = bias_attr
         self._act = act
-        self._use_mkldnn = _global_flags()["FLAGS_use_mkldnn"]
 
         if dtype == "float16":
             self._dtype = "float32"
@@ -1073,9 +1072,8 @@ def forward(self, input):
             )
             if self._act is None:
                 return batch_norm_out
-
             return dygraph_utils._append_activation_in_dygraph(
-                batch_norm_out, act=self._act, use_mkldnn=self._use_mkldnn
+                batch_norm_out, act=self._act
             )
         elif in_pir_mode():
             batch_norm_out, t1, t2, t3, t4, _ = _C_ops.batch_norm_(
@@ -1111,7 +1109,6 @@ def forward(self, input):
                 "epsilon": self._epsilon,
                 "is_test": self._is_test,
                 "data_layout": self._data_layout,
-                "use_mkldnn": False,
                 "fuse_with_relu": self._fuse_with_relu,
                 "use_global_stats": self._use_global_stats,
                 "trainable_statistics": self._trainable_statistics,
@@ -1668,7 +1665,6 @@ def forward(self, x):
             "epsilon": self._epsilon,
             "is_test": not self.training,
             "data_layout": self._data_format,
-            "use_mkldnn": False,
             "fuse_with_relu": False,
             "use_global_stats": False,
             "trainable_statistics": False,
diff --git a/python/paddle/nn/utils/dygraph_utils.py b/python/paddle/nn/utils/dygraph_utils.py
diff --git a/python/paddle/static/nn/common.py b/python/paddle/static/nn/common.py
diff --git a/python/paddle/tensor/layer_function_generator.py b/python/paddle/tensor/layer_function_generator.py
diff --git a/python/paddle/tensor/linalg.py b/python/paddle/tensor/linalg.py
diff --git a/python/paddle/tensor/math.py b/python/paddle/tensor/math.py
diff --git a/python/paddle/tensor/random.py b/python/paddle/tensor/random.py

Original file line number	Diff line number	Diff line change
`@@ -478,7 +478,7 @@ def _accumulate_gradients_by_sum_op_(`
`478`	`478`	`"sum",`
`479`	`479`	`{"X": renamed_vars[var_name]},`
`480`	`480`	`{"Out": [var_name]},`
`481`		`- {"use_mkldnn": False, "op_device": op_device},`
	`481`	`+ {"op_device": op_device},`
`482`	`482`	`)`
`483`	`483`	`)`
`484`	`484`	`renamed_vars[var_name] = [var_name]`
`@@ -505,7 +505,7 @@ def _accumulate_gradients_by_add_ops_(`
`505`	`505`	`"grad_add",`
`506`	`506`	`{"X": [x_name], "Y": [y_name]},`
`507`	`507`	`{"Out": [out_name]},`
`508`		`- {"use_mkldnn": False, "op_device": op_device},`
	`508`	`+ {"op_device": op_device},`
`509`	`509`	`)`
`510`	`510`	`)`
`511`	`511`	`renamed_vars[var_name] = [var_name]`
Original file line number	Diff line number	Diff line change
`@@ -1815,7 +1815,6 @@ def create_persistable_gradients_and_insert_merge_ops(`
`1815`	`1815`	`outputs={'Out': gradient_merge_var},`
`1816`	`1816`	`attrs={`
`1817`	`1817`	`'axis': -1,`
`1818`		`- 'use_mkldnn': False,`
`1819`	`1818`	`OP_ROLE_KEY: OpRole.Backward,`
`1820`	`1819`	`},`
`1821`	`1820`	`)`
`@@ -1884,7 +1883,6 @@ def _create_gm_cond(self, main_block):`
`1884`	`1883`	`attrs={`
`1885`	`1884`	`'axis': -1,`
`1886`	`1885`	`OP_ROLE_KEY: OpRole.Optimize,`
`1887`		`- 'use_mkldnn': False,`
`1888`	`1886`	`},`
`1889`	`1887`	`)`
`1890`	`1888`
Original file line number	Diff line number	Diff line change
`@@ -910,7 +910,6 @@ def _insert_sparse_mask_ops(cls, main_program, params):`
`910`	`910`	`outputs={'Out': param},`
`911`	`911`	`attrs={`
`912`	`912`	`'axis': -1,`
`913`		`- 'use_mkldnn': False,`
`914`	`913`	`OP_ROLE_KEY: int(OpRole.Optimize),`
`915`	`914`	`},`
`916`	`915`	`)`
Original file line number	Diff line number	Diff line change
`@@ -445,7 +445,7 @@ def _append_pserver_grad_merge_ops(`
`445`	`445`	`type="sum",`
`446`	`446`	`inputs={"X": vars2merge},`
`447`	`447`	`outputs={"Out": merged_var},`
`448`		`- attrs={"use_mkldnn": False},`
	`448`	`+ attrs={},`
`449`	`449`	`)`
`450`	`450`	`optimize_block.append_op(`
`451`	`451`	`type="scale",`
Original file line number	Diff line number	Diff line change
`@@ -103,7 +103,6 @@ def forward(self, var, block=None):`
`103`	`103`	`"mean": self._mean,`
`104`	`104`	`"std": self._std_dev,`
`105`	`105`	`"seed": self._seed,`
`106`		`- "use_mkldnn": False,`
`107`	`106`	`},`
`108`	`107`	`stop_gradient=True,`
`109`	`108`	`)`