PaddlePaddle
diff --git a/‎cmake/external/xpu.cmake
Lines changed: 2 additions & 0 deletions b/‎cmake/external/xpu.cmake
Lines changed: 2 additions & 0 deletions
diff --git a/‎paddle/phi/kernels/funcs/selected_rows_functor.cc
Lines changed: 4 additions & 4 deletions b/‎paddle/phi/kernels/funcs/selected_rows_functor.cc
Lines changed: 4 additions & 4 deletions
diff --git a/‎paddle/phi/kernels/funcs/unfold_functor.h
Lines changed: 5 additions & 8 deletions b/‎paddle/phi/kernels/funcs/unfold_functor.h
Lines changed: 5 additions & 8 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/conv2d_xpu_kernel.cc
Lines changed: 21 additions & 23 deletions b/‎paddle/phi/kernels/fusion/xpu/conv2d_xpu_kernel.cc
Lines changed: 21 additions & 23 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/conv_transpose_xpu_kernel.cc
Lines changed: 15 additions & 14 deletions b/‎paddle/phi/kernels/fusion/xpu/conv_transpose_xpu_kernel.cc
Lines changed: 15 additions & 14 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/fast_where_xpu_kernel.cc
Lines changed: 3 additions & 3 deletions b/‎paddle/phi/kernels/fusion/xpu/fast_where_xpu_kernel.cc
Lines changed: 3 additions & 3 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/pad2d_xpu_kernel.cc
Lines changed: 7 additions & 7 deletions b/‎paddle/phi/kernels/fusion/xpu/pad2d_xpu_kernel.cc
Lines changed: 7 additions & 7 deletions
diff --git a/‎paddle/phi/kernels/fusion/xpu/resnet_basic_block_grad_kernel.cc
Lines changed: 62 additions & 62 deletions b/‎paddle/phi/kernels/fusion/xpu/resnet_basic_block_grad_kernel.cc
Lines changed: 62 additions & 62 deletions
@@ -29,6 +29,8 @@ set(XPU_XBLAS_LIB_NAME "libxpu_blas.so")
 set(XPU_XFA_LIB_NAME "libxpu_flash_attention.so")
 set(XPU_XPUDNN_LIB_NAME "libxpu_dnn.so")
 set(XPU_FFT_LIB_NAME "libcufft.so")
+# Avoid deprecated int32 apis:
+add_compile_definitions(XPUAPI_NOT_INCLUDE_DEPRECATED)
 
 if(NOT DEFINED XPU_XHPC_BASE_DATE)
   set(XPU_XHPC_BASE_DATE "dev/20250417")
 
@@ -358,7 +358,7 @@ struct SelectedRowsAddToTensor<phi::XPUContext, T> {
     auto& in1_rows = input1.rows();
     int64_t* in1_rows_data = nullptr;
     xpu::VectorParam<int64_t> in1_rows_vec{
-        in1_rows.data(), static_cast<int>(in1_rows.size()), in1_rows_data};
+        in1_rows.data(), static_cast<int64_t>(in1_rows.size()), in1_rows_data};
 
     int64_t in1_row_numel = in1_value.numel() / in1_rows.size();
     PADDLE_ENFORCE_EQ(
@@ -373,9 +373,9 @@ struct SelectedRowsAddToTensor<phi::XPUContext, T> {
     auto* in1_data = in1_value.data<T>();
     auto* out_data = input2->data<T>();
 
-    int h = in1_rows.size();
-    int w = in1_row_numel;
-    const std::vector<int> xshape{h, w};
+    int64_t h = in1_rows.size();
+    int64_t w = in1_row_numel;
+    const std::vector<int64_t> xshape{h, w};
 
     int r = xpu::scatter<XPUType, int64_t>(
         context.x_context(),
 
@@ -18,14 +18,11 @@ namespace phi {
 namespace funcs {
 
 //////// CalcOutputSize Functor ///////
-inline int CalcOutputSize(int input_size,
-                          int filter_size,
-                          int dilation,
-                          int padding1,
-                          int padding2,
-                          int stride) {
-  const int dkernel = dilation * (filter_size - 1) + 1;
-  int output_size = (input_size + padding1 + padding2 - dkernel) / stride + 1;
+template <typename T = int>
+inline T CalcOutputSize(
+    T input_size, T filter_size, T dilation, T padding1, T padding2, T stride) {
+  const T dkernel = dilation * (filter_size - 1) + 1;
+  T output_size = (input_size + padding1 + padding2 - dkernel) / stride + 1;
   return input_size == -1 ? -1 : output_size;
 }
 
 
@@ -37,9 +37,9 @@ void Conv2dXPUKernelImpl(const Context& ctx,
                          const paddle::optional<DenseTensor>& branch_max,
                          const paddle::optional<DenseTensor>& scale_max,
                          const paddle::optional<DenseTensor>& out_max_in,
-                         const std::vector<int>& paddings,
-                         const std::vector<int>& dilations,
-                         const std::vector<int>& strides,
+                         const std::vector<int>& paddings_,
+                         const std::vector<int>& dilations_,
+                         const std::vector<int>& strides_,
                          const std::string& padding_algorithm,
                          int groups,
                          int act_type,
@@ -52,26 +52,23 @@ void Conv2dXPUKernelImpl(const Context& ctx,
   auto input_dims = x.dims();
   auto filter_dims = filter.dims();
   // update paddings and dilations according to padding_algorithm
-  std::vector<int> paddings_vec = paddings;
-  std::vector<int> dilations_vec = dilations;
+  std::vector<int64_t> paddings(paddings_.begin(), paddings_.end());
+  std::vector<int64_t> dilations(dilations_.begin(), dilations_.end());
+  std::vector<int64_t> strides(strides_.begin(), strides_.end());
   DDim in_data_dims = common::slice_ddim(input_dims, 2, input_dims.size());
   DDim filter_data_dims =
       common::slice_ddim(filter_dims, 2, filter_dims.size());
-  std::vector<int> ksize = common::vectorize<int>(filter_data_dims);
-  phi::UpdatePaddingAndDilation(&paddings_vec,
-                                &dilations_vec,
-                                padding_algorithm,
-                                in_data_dims,
-                                strides,
-                                ksize);
+  std::vector<int64_t> ksize = common::vectorize<int64_t>(filter_data_dims);
+  phi::UpdatePaddingAndDilation(
+      &paddings, &dilations, padding_algorithm, in_data_dims, strides, ksize);
 
-  int batch = static_cast<int>(input_dims[0]);
-  int in_c = static_cast<int>(input_dims[1]);
-  int in_h = static_cast<int>(input_dims[2]);
-  int in_w = static_cast<int>(input_dims[3]);
-  int out_c = static_cast<int>(filter_dims[0]);
-  int win_h = static_cast<int>(filter_dims[2]);
-  int win_w = static_cast<int>(filter_dims[3]);
+  int64_t batch = input_dims[0];
+  int64_t in_c = input_dims[1];
+  int64_t in_h = input_dims[2];
+  int64_t in_w = input_dims[3];
+  int64_t out_c = filter_dims[0];
+  int64_t win_h = filter_dims[2];
+  int64_t win_w = filter_dims[3];
   auto* input_data = reinterpret_cast<const XPUTypeX*>(x.data<T_X>());
   const float* input_max_data =
       x_max.get_ptr() == nullptr ? nullptr : x_max.get_ptr()->data<float>();
@@ -130,10 +127,11 @@ void Conv2dXPUKernelImpl(const Context& ctx,
           /* int64_t h */ in_h,
           /* int64_t w */ in_w,
           /* int64_t oc */ out_c,
-          /* const std::vector<int>& ksize */ std::vector<int>{win_h, win_w},
-          /* const std::vector<int>& strides */ strides,
-          /* const std::vector<int>& paddings */ paddings_vec,
-          /* const std::vector<int>& dilations */ dilations_vec,
+          /* const std::vector<int64_t>& ksize */
+          std::vector<int64_t>{win_h, win_w},
+          /* const std::vector<int64_t>& strides */ strides,
+          /* const std::vector<int64_t>& paddings */ paddings,
+          /* const std::vector<int64_t>& dilations */ dilations,
           /* int64_t groups */ groups,
           /* const float* in_maxptr */ input_max_data,
           /* const float* filter_maxptr */ filter_max_data,
 
@@ -26,13 +26,13 @@ void Conv2dTransposeXPUKernel(const Context& ctx,
                               const DenseTensor& filter,
                               const DenseTensor& filter_max,
                               const paddle::optional<DenseTensor>& bias,
-                              const std::vector<int>& strides,
-                              const std::vector<int>& paddings,
+                              const std::vector<int>& strides_,
+                              const std::vector<int>& paddings_,
                               const std::vector<int>& output_padding,
                               const IntArray& output_size,
                               const std::string& padding_algorithm,
                               int groups,
-                              const std::vector<int>& dilations,
+                              const std::vector<int>& dilations_,
                               const std::string& data_format,
                               bool has_bias,
                               bool with_act,
@@ -48,17 +48,18 @@ void Conv2dTransposeXPUKernel(const Context& ctx,
 
   DDim in_data_dims = slice_ddim(x.dims(), 2, x.dims().size());  // hw
   DDim filter_data_dims = slice_ddim(filter.dims(), 2, filter.dims().size());
-  std::vector<int> ksize = common::vectorize<int>(filter_data_dims);
-  std::vector<int> paddings_ = paddings;
-  std::vector<int> dilations_ = dilations;
+  std::vector<int64_t> ksize = common::vectorize<int64_t>(filter_data_dims);
+  std::vector<int64_t> strides(strides_.begin(), strides_.end());
+  std::vector<int64_t> paddings(paddings_.begin(), paddings_.end());
+  std::vector<int64_t> dilations(dilations_.begin(), dilations_.end());
   UpdatePaddingAndDilation(
-      &paddings_, &dilations_, padding_algorithm, in_data_dims, strides, ksize);
+      &paddings, &dilations, padding_algorithm, in_data_dims, strides, ksize);
 
-  const int batch_size = static_cast<int>(x.dims()[0]);
-  const int img_yc = static_cast<int>(x.dims()[1]);
-  const int img_xc = static_cast<int>(out->dims()[1]);
-  const int img_xh = static_cast<int>(out->dims()[2]);
-  const int img_xw = static_cast<int>(out->dims()[3]);
+  const int64_t batch_size = x.dims()[0];
+  const int64_t img_yc = x.dims()[1];
+  const int64_t img_xc = out->dims()[1];
+  const int64_t img_xh = out->dims()[2];
+  const int64_t img_xw = out->dims()[3];
   auto act = xpu::Activation_t::LINEAR;
   if (with_act) {
     if (act_type == "relu") {
@@ -83,8 +84,8 @@ void Conv2dTransposeXPUKernel(const Context& ctx,
       img_xc,
       ksize,
       strides,
-      paddings_,
-      dilations_,
+      paddings,
+      dilations,
       groups,
       x_max_data,
       filter_max_data,
 
@@ -30,9 +30,9 @@ void FastWhereXPUKernel(const Context& ctx,
   auto* x_data = reinterpret_cast<const XPUType*>(x.data<T>());
   auto* y_data = reinterpret_cast<const XPUType*>(y.data<T>());
   auto* out_data = reinterpret_cast<XPUType*>(ctx.template Alloc<T>(out));
-  auto condition_dims = common::vectorize<int>(condition.dims());
-  auto x_dims = common::vectorize<int>(x.dims());
-  auto y_dims = common::vectorize<int>(y.dims());
+  auto condition_dims = common::vectorize<int64_t>(condition.dims());
+  auto x_dims = common::vectorize<int64_t>(x.dims());
+  auto y_dims = common::vectorize<int64_t>(y.dims());
   PADDLE_ENFORCE_EQ(
       x_dims,
       y_dims,
 
@@ -19,13 +19,13 @@ namespace fusion {
 template <typename T, typename Context>
 void Pad2dXPUKernel(const Context& dev_ctx,
                     const DenseTensor& x,
-                    const std::vector<int>& paddings,
+                    const std::vector<int>& paddings_,
                     const std::string& mode,
                     float pad_value,
                     const std::string& data_format,
                     DenseTensor* out) {
   using XPUType = typename XPUTypeTrait<T>::Type;
-  std::vector<int> pads = paddings;
+  std::vector<int64_t> pads(paddings_.begin(), paddings_.end());
 
   auto in_dims = x.dims();
   const T* in_data = x.data<T>();
@@ -48,10 +48,10 @@ void Pad2dXPUKernel(const Context& dev_ctx,
   }
 
   T* out_data = dev_ctx.template Alloc<T>(out);
-  const int num = in_dims[0];  // n
-  int channels = in_dims[1];   // c
-  int in_height = in_dims[2];  // xh
-  int in_width = in_dims[3];   // xw
+  const int64_t num = in_dims[0];  // n
+  int64_t channels = in_dims[1];   // c
+  int64_t in_height = in_dims[2];  // xh
+  int64_t in_width = in_dims[3];   // xw
   if (data_format == "NHWC") {
     in_height = in_dims[1];  // xh
     in_width = in_dims[2];   // xw
@@ -111,7 +111,7 @@ void Pad2dXPUKernel(const Context& dev_ctx,
   }
 
   // set pad3d's pads to pad2d's pads_xpu
-  std::vector<int> pads_xpu(4);
+  std::vector<int64_t> pads_xpu(4);
   pads_xpu[0] = pads[2];  // pt
   pads_xpu[1] = pads[3];  // pd
   pads_xpu[2] = pads[0];  // pl
 
@@ -51,16 +51,16 @@ class ResnetBasicBlockGradAttr {
       const DenseTensor &max_filter3,
       const DenseTensor &out,
       const DenseTensor &out_grad,
-      int stride1_in,
-      int stride2_in,
-      int stride3_in,
-      int padding1_in,
-      int padding2_in,
-      int padding3_in,
-      int dilation1_in,
-      int dilation2_in,
-      int dilation3_in,
-      int group_in,
+      int64_t stride1_in,
+      int64_t stride2_in,
+      int64_t stride3_in,
+      int64_t padding1_in,
+      int64_t padding2_in,
+      int64_t padding3_in,
+      int64_t dilation1_in,
+      int64_t dilation2_in,
+      int64_t dilation3_in,
+      int64_t group_in,
       float momentum_in,
       float epsilon_in,
       const std::string &data_format_in,
@@ -100,65 +100,65 @@ class ResnetBasicBlockGradAttr {
     auto conv1_out = &conv1_in;
     auto filter2 = &filter2_in;
     auto conv2_out = &conv2_in;
-    conv1_input_shape = common::vectorize<int>(input1->dims());
-    conv1_output_shape = common::vectorize<int>(conv1_out->dims());
-    conv1_filter_shape = common::vectorize<int>(filter1->dims());
+    conv1_input_shape = common::vectorize<int64_t>(input1->dims());
+    conv1_output_shape = common::vectorize<int64_t>(conv1_out->dims());
+    conv1_filter_shape = common::vectorize<int64_t>(filter1->dims());
     conv1_filter_numel = filter1->numel();
     conv1_input_numel = input1->numel();
     conv1_output_numel = conv1_out->numel();
 
-    conv2_input_shape = common::vectorize<int>(conv1_out->dims());
-    conv2_output_shape = common::vectorize<int>(conv2_out->dims());
-    conv2_filter_shape = common::vectorize<int>(filter2->dims());
+    conv2_input_shape = common::vectorize<int64_t>(conv1_out->dims());
+    conv2_output_shape = common::vectorize<int64_t>(conv2_out->dims());
+    conv2_filter_shape = common::vectorize<int64_t>(filter2->dims());
     conv2_filter_numel = filter2->numel();
     conv2_input_numel = conv1_out->numel();
     conv2_output_numel = conv2_out->numel();
 
     if (has_shortcut) {
       auto filter3 = filter3_in.get_ptr();
       auto conv3_out = conv3_in.get_ptr();
-      conv3_input_shape = common::vectorize<int>(input1->dims());
-      conv3_output_shape = common::vectorize<int>(conv3_out->dims());
-      conv3_filter_shape = common::vectorize<int>(filter3->dims());
+      conv3_input_shape = common::vectorize<int64_t>(input1->dims());
+      conv3_output_shape = common::vectorize<int64_t>(conv3_out->dims());
+      conv3_filter_shape = common::vectorize<int64_t>(filter3->dims());
       conv3_filter_numel = filter3->numel();
       conv3_input_numel = input1->numel();
       conv3_output_numel = conv3_out->numel();
     }
   }
 
-  int padding1;
-  int padding2;
-  int padding3;
-  int stride1;
-  int stride2;
-  int stride3;
-  int dilation1;
-  int dilation2;
-  int dilation3;
-  int group;
+  int64_t padding1;
+  int64_t padding2;
+  int64_t padding3;
+  int64_t stride1;
+  int64_t stride2;
+  int64_t stride3;
+  int64_t dilation1;
+  int64_t dilation2;
+  int64_t dilation3;
+  int64_t group;
 
   bool has_shortcut;
   bool find_max;
 
-  std::vector<int> conv1_input_shape;
-  std::vector<int> conv1_output_shape;
-  std::vector<int> conv1_filter_shape;
-  std::vector<int> conv2_input_shape;
-  std::vector<int> conv2_output_shape;
-  std::vector<int> conv2_filter_shape;
-  std::vector<int> conv3_input_shape;
-  std::vector<int> conv3_output_shape;
-  std::vector<int> conv3_filter_shape;
-
-  int conv1_filter_numel;
-  int conv2_filter_numel;
-  int conv3_filter_numel;
-  int conv1_input_numel;
-  int conv2_input_numel;
-  int conv3_input_numel;
-  int conv1_output_numel;
-  int conv2_output_numel;
-  int conv3_output_numel;
+  std::vector<int64_t> conv1_input_shape;
+  std::vector<int64_t> conv1_output_shape;
+  std::vector<int64_t> conv1_filter_shape;
+  std::vector<int64_t> conv2_input_shape;
+  std::vector<int64_t> conv2_output_shape;
+  std::vector<int64_t> conv2_filter_shape;
+  std::vector<int64_t> conv3_input_shape;
+  std::vector<int64_t> conv3_output_shape;
+  std::vector<int64_t> conv3_filter_shape;
+
+  int64_t conv1_filter_numel;
+  int64_t conv2_filter_numel;
+  int64_t conv3_filter_numel;
+  int64_t conv1_input_numel;
+  int64_t conv2_input_numel;
+  int64_t conv3_input_numel;
+  int64_t conv1_output_numel;
+  int64_t conv2_output_numel;
+  int64_t conv3_output_numel;
 };
 
 template <typename T>
@@ -170,20 +170,20 @@ static inline void xpu_conv2d_grad(xpu::Context *ctx,
                                    T *filter_grad_data,
                                    const float *input_max_data,
                                    const float *filter_max_data,
-                                   const std::vector<int> &input_shape,
-                                   const std::vector<int> &filter_shape,
-                                   int padding,
-                                   int stride,
-                                   int dilation,
-                                   int group) {
-  std::vector<int> ksize{filter_shape[2], filter_shape[3]};
-  std::vector<int> stride_vec{stride, stride};
-  std::vector<int> dilation_vec{dilation, dilation};
-  std::vector<int> padding_vec{padding, padding};
-  int N = input_shape[0];
-  int C = input_shape[1];
-  int H = input_shape[2];
-  int W = input_shape[3];
+                                   const std::vector<int64_t> &input_shape,
+                                   const std::vector<int64_t> &filter_shape,
+                                   int64_t padding,
+                                   int64_t stride,
+                                   int64_t dilation,
+                                   int64_t group) {
+  std::vector<int64_t> ksize{filter_shape[2], filter_shape[3]};
+  std::vector<int64_t> stride_vec{stride, stride};
+  std::vector<int64_t> dilation_vec{dilation, dilation};
+  std::vector<int64_t> padding_vec{padding, padding};
+  int64_t N = input_shape[0];
+  int64_t C = input_shape[1];
+  int64_t H = input_shape[2];
+  int64_t W = input_shape[3];
 
   int r = xpu::conv2d_grad<T, T, T, int16_t>(ctx,
                                              input_data,