[NPU]fix equal kernel (PaddlePaddle#228)

USTCKAY · web-flow · commit 81d5ba2ff21d · 2022-11-23T19:37:41.000+08:00
* [NPU]fix equal kernel

* remove extra code

* call cask kernel in equal kernel
diff --git a/backends/npu/kernels/compare_kernel.cc b/backends/npu/kernels/compare_kernel.cc
@@ -16,15 +16,33 @@
 
 namespace custom_kernel {
 
+template <typename T, typename Context>
+void CastKernel(const Context& dev_ctx,
+                const phi::DenseTensor& x,
+                phi::DenseTensorMeta::DataType dtype,
+                phi::DenseTensor* out);
+
 template <typename T, typename Context>
 void EqualRawKernel(const Context& dev_ctx,
-                 const phi::DenseTensor& x,
-                 const phi::DenseTensor& y,
-                 int axis,
-                 phi::DenseTensor* out) {
-  dev_ctx.template Alloc<bool>(out);
-  const auto& runner = NpuOpRunner("Equal", {x, y}, {*out}, {});
+                    const phi::DenseTensor& x,
+                    const phi::DenseTensor& y,
+                    int axis,
+                    phi::DenseTensor* out) {
   auto stream = dev_ctx.stream();
+  dev_ctx.template Alloc<bool>(out);
+
+  phi::DenseTensor transformed_x(x), transformed_y;
+  if (x.dtype() != y.dtype()) {
+    phi::DenseTensorMeta meta = {x.dtype(), y.dims()};
+    transformed_y.set_meta(meta);
+    custom_kernel::CastKernel<T, Context>(
+        dev_ctx, y, x.dtype(), &transformed_y);
+  } else {
+    transformed_y = y;
+  }
+
+  const auto& runner =
+      NpuOpRunner("Equal", {transformed_x, transformed_y}, {*out}, {});
   runner.Run(stream);
 }
 
@@ -38,10 +56,10 @@ void EqualKernel(const Context& dev_ctx,
 
 template <typename T, typename Context>
 void NotEqualRawKernel(const Context& dev_ctx,
-                    const phi::DenseTensor& x,
-                    const phi::DenseTensor& y,
-                    int axis,
-                    phi::DenseTensor* out) {
+                       const phi::DenseTensor& x,
+                       const phi::DenseTensor& y,
+                       int axis,
+                       phi::DenseTensor* out) {
   dev_ctx.template Alloc<bool>(out);
   const auto& runner = NpuOpRunner("NotEqual", {x, y}, {*out}, {});
   auto stream = dev_ctx.stream();
@@ -50,19 +68,18 @@ void NotEqualRawKernel(const Context& dev_ctx,
 
 template <typename T, typename Context>
 void NotEqualKernel(const Context& dev_ctx,
-                 const phi::DenseTensor& x,
-                 const phi::DenseTensor& y,
-                 phi::DenseTensor* out) {
+                    const phi::DenseTensor& x,
+                    const phi::DenseTensor& y,
+                    phi::DenseTensor* out) {
   custom_kernel::NotEqualRawKernel<T, Context>(dev_ctx, x, y, -1, out);
 }
 
-
 template <typename T, typename Context>
 void LessEqualRawKernel(const Context& dev_ctx,
-                     const phi::DenseTensor& x,
-                     const phi::DenseTensor& y,
-                     int axis,
-                     phi::DenseTensor* out) {
+                        const phi::DenseTensor& x,
+                        const phi::DenseTensor& y,
+                        int axis,
+                        phi::DenseTensor* out) {
   dev_ctx.template Alloc<bool>(out);
   auto stream = dev_ctx.stream();
 
@@ -72,18 +89,18 @@ void LessEqualRawKernel(const Context& dev_ctx,
 
 template <typename T, typename Context>
 void LessEqualKernel(const Context& dev_ctx,
-                 const phi::DenseTensor& x,
-                 const phi::DenseTensor& y,
-                 phi::DenseTensor* out) {
+                     const phi::DenseTensor& x,
+                     const phi::DenseTensor& y,
+                     phi::DenseTensor* out) {
   custom_kernel::LessEqualRawKernel<T, Context>(dev_ctx, x, y, -1, out);
 }
 
 template <typename T, typename Context>
 void LessThanRawKernel(const Context& dev_ctx,
-                    const phi::DenseTensor& x,
-                    const phi::DenseTensor& y,
-                    int axis,
-                    phi::DenseTensor* out) {
+                       const phi::DenseTensor& x,
+                       const phi::DenseTensor& y,
+                       int axis,
+                       phi::DenseTensor* out) {
   dev_ctx.template Alloc<bool>(out);
   const auto& runner = NpuOpRunner("Less", {x, y}, {*out}, {});
   auto stream = dev_ctx.stream();
@@ -92,18 +109,18 @@ void LessThanRawKernel(const Context& dev_ctx,
 
 template <typename T, typename Context>
 void LessThanKernel(const Context& dev_ctx,
-                 const phi::DenseTensor& x,
-                 const phi::DenseTensor& y,
-                 phi::DenseTensor* out) {
+                    const phi::DenseTensor& x,
+                    const phi::DenseTensor& y,
+                    phi::DenseTensor* out) {
   custom_kernel::LessThanRawKernel<T, Context>(dev_ctx, x, y, -1, out);
 }
 
 template <typename T, typename Context>
 void GreaterEqualRawKernel(const Context& dev_ctx,
-                        const phi::DenseTensor& x,
-                        const phi::DenseTensor& y,
-                        int axis,
-                        phi::DenseTensor* out) {
+                           const phi::DenseTensor& x,
+                           const phi::DenseTensor& y,
+                           int axis,
+                           phi::DenseTensor* out) {
   dev_ctx.template Alloc<bool>(out);
   const auto& runner = NpuOpRunner("GreaterEqual", {x, y}, {*out}, {});
   auto stream = dev_ctx.stream();
@@ -112,18 +129,18 @@ void GreaterEqualRawKernel(const Context& dev_ctx,
 
 template <typename T, typename Context>
 void GreaterEqualKernel(const Context& dev_ctx,
-                 const phi::DenseTensor& x,
-                 const phi::DenseTensor& y,
-                 phi::DenseTensor* out) {
+                        const phi::DenseTensor& x,
+                        const phi::DenseTensor& y,
+                        phi::DenseTensor* out) {
   custom_kernel::GreaterEqualRawKernel<T, Context>(dev_ctx, x, y, -1, out);
 }
 
 template <typename T, typename Context>
 void GreaterThanRawKernel(const Context& dev_ctx,
-                       const phi::DenseTensor& x,
-                       const phi::DenseTensor& y,
-                       int axis,
-                       phi::DenseTensor* out) {
+                          const phi::DenseTensor& x,
+                          const phi::DenseTensor& y,
+                          int axis,
+                          phi::DenseTensor* out) {
   dev_ctx.template Alloc<bool>(out);
   const auto& runner = NpuOpRunner("Greater", {x, y}, {*out}, {});
   auto stream = dev_ctx.stream();
@@ -132,9 +149,9 @@ void GreaterThanRawKernel(const Context& dev_ctx,
 
 template <typename T, typename Context>
 void GreaterThanKernel(const Context& dev_ctx,
-                 const phi::DenseTensor& x,
-                 const phi::DenseTensor& y,
-                 phi::DenseTensor* out) {
+                       const phi::DenseTensor& x,
+                       const phi::DenseTensor& y,
+                       phi::DenseTensor* out) {
   custom_kernel::GreaterThanRawKernel<T, Context>(dev_ctx, x, y, -1, out);
 }
 
@@ -176,7 +193,6 @@ PD_REGISTER_PLUGIN_KERNEL(not_equal,
                           phi::dtype::float16,
                           double) {}
 
-
 PD_REGISTER_PLUGIN_KERNEL(not_equal_raw,
                           npu,
                           ALL_LAYOUT,
@@ -282,4 +298,4 @@ PD_REGISTER_PLUGIN_KERNEL(greater_than_raw,
                           int64_t,
                           float,
                           phi::dtype::float16,
-                          double) {}
+                          double) {}
diff --git a/backends/npu/tests/unittests/test_compare_op_npu.py b/backends/npu/tests/unittests/test_compare_op_npu.py
@@ -71,6 +71,20 @@ def test_dynamic_api(self):
             out = op(x, y)
             self.assertEqual((out.numpy() == real_result).all(), True)
 
+        def test_dynamic_api_different_type(self):
+            if op_type != 'equal':
+                return
+            paddle.disable_static()
+            paddle.set_device('npu:0')
+            x = np.random.random(size=(10, 7)).astype(typename)
+            y = np.random.random(size=(10, 7)).astype('int32')
+            real_result = callback(x, y)
+            x = paddle.to_tensor(x, dtype=typename)
+            y = paddle.to_tensor(y, dtype='float32')
+            op = eval("paddle.%s" % (self.op_type))
+            out = op(x, y)
+            self.assertEqual((out.numpy() == real_result).all(), True)
+
         @unittest.skipIf(typename == 'float16', "float16 is not supported now")
         def test_broadcast_api_1(self):
             paddle.enable_static()