PaddlePaddle
diff --git a/‎.pre-commit-config.yaml
Lines changed: 1 addition & 1 deletion b/‎.pre-commit-config.yaml
Lines changed: 1 addition & 1 deletion
diff --git a/‎SECURITY.md
Lines changed: 5 additions & 0 deletions b/‎SECURITY.md
Lines changed: 5 additions & 0 deletions
diff --git a/‎cmake/cudnn.cmake
Lines changed: 11 additions & 7 deletions b/‎cmake/cudnn.cmake
Lines changed: 11 additions & 7 deletions
diff --git a/‎cmake/external/xpu.cmake
Lines changed: 17 additions & 12 deletions b/‎cmake/external/xpu.cmake
Lines changed: 17 additions & 12 deletions
diff --git a/‎cmake/flags.cmake
Lines changed: 0 additions & 1 deletion b/‎cmake/flags.cmake
Lines changed: 0 additions & 1 deletion
diff --git a/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/same_operands_result.cc
Lines changed: 2 additions & 0 deletions b/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/same_operands_result.cc
Lines changed: 2 additions & 0 deletions
diff --git a/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/same_operands_result.h
Lines changed: 2 additions & 0 deletions b/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/same_operands_result.h
Lines changed: 2 additions & 0 deletions
diff --git a/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/unary_infer_sym.cc
Lines changed: 33 additions & 8 deletions b/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/unary_infer_sym.cc
Lines changed: 33 additions & 8 deletions
diff --git a/‎paddle/fluid/pir/dialect/operator/ir/control_flow_op.cc
Lines changed: 2 additions & 2 deletions b/‎paddle/fluid/pir/dialect/operator/ir/control_flow_op.cc
Lines changed: 2 additions & 2 deletions
diff --git a/‎paddle/fluid/pir/serialize_deserialize/CMakeLists.txt
Lines changed: 2 additions & 2 deletions b/‎paddle/fluid/pir/serialize_deserialize/CMakeLists.txt
Lines changed: 2 additions & 2 deletions
diff --git a/‎paddle/fluid/pir/serialize_deserialize/patch/0.yaml renamed to ‎paddle/fluid/pir/serialize_deserialize/patch/2.yaml b/‎paddle/fluid/pir/serialize_deserialize/patch/0.yaml renamed to ‎paddle/fluid/pir/serialize_deserialize/patch/2.yaml
diff --git a/‎paddle/fluid/primitive/decomp_rule/decomp_vjp/details.h
Lines changed: 5 additions & 2 deletions b/‎paddle/fluid/primitive/decomp_rule/decomp_vjp/details.h
Lines changed: 5 additions & 2 deletions
diff --git a/‎paddle/fluid/pybind/auto_parallel_py.cc
Lines changed: 4 additions & 0 deletions b/‎paddle/fluid/pybind/auto_parallel_py.cc
Lines changed: 4 additions & 0 deletions
diff --git a/‎paddle/fluid/pybind/eager_method.cc
Lines changed: 87 additions & 0 deletions b/‎paddle/fluid/pybind/eager_method.cc
Lines changed: 87 additions & 0 deletions
diff --git a/‎paddle/fluid/pybind/pybind.cc
Lines changed: 13 additions & 0 deletions b/‎paddle/fluid/pybind/pybind.cc
Lines changed: 13 additions & 0 deletions
@@ -62,7 +62,7 @@ repos:
   - repo: https://github.com/astral-sh/ruff-pre-commit
     rev: v0.11.11
     hooks:
-      - id: ruff
+      - id: ruff-check
         args: [--fix, --exit-non-zero-on-fix, --no-cache]
   # For C++ files
   - repo: local
 
@@ -19,6 +19,11 @@ These tools include adversarial example evaluation test, pseudo-natural environm
 Always load and execute untrusted models inside a sandbox and be sure to know the security impacts.
 There are several ways in which a model could become untrusted. PaddlePaddle has enough features to impact on the system. (e.g. `paddle.load` uses [pickle](https://docs.python.org/3/library/pickle.html) implicitly, which may cause malformed models to achieve arbitrary code execution). So we recommend when using the untrusted models, you need to carefully audit it and run PaddlePaddle inside a sandbox.
 
+### Using distributed features
+PaddlePaddle offers distributed computing capabilities through the paddle.distributed package. These distributed features are meant for secure, trusted environments only, not for use on public or untrusted networks.
+
+For efficiency, PaddlePaddle Distributed (e.g. RPC) does not use encryption or authentication. Messages are sent in plain text, and connections from any source are accepted. This means if you run a PaddlePaddle Distributed program on your network, anyone who can access that network could send tasks to PaddlePaddle, and those tasks will be executed without any security checks, using the same permissions as the PaddlePaddle process.
+
 ## PaddlePaddle Code Security
 
 PaddlePaddle always take code security seriously. However, due to the complexity of the framework and its dependence on other thirdparty open source libraries, there may still be some security issues undetected. Therefore, we hope that more security researchers and PaddlePaddle developers can participate in the code security program. We encourage responsible disclosure of security issues, as well as contributing code to improve our vulnerability finding tools to make PaddlePaddle safer.
 
@@ -10,20 +10,24 @@ else()
       CACHE PATH "CUDNN ROOT")
 endif()
 
+set(TARGET_ARCH "x86_64")
+if(NOT ${CMAKE_SYSTEM_PROCESSOR})
+  set(TARGET_ARCH ${CMAKE_SYSTEM_PROCESSOR})
+endif()
+
 find_path(
   CUDNN_INCLUDE_DIR cudnn.h
-  PATHS ${CUDNN_ROOT} ${CUDNN_ROOT}/include $ENV{CUDNN_ROOT}
-        $ENV{CUDNN_ROOT}/include ${CUDA_TOOLKIT_INCLUDE}
+  PATHS ${CUDNN_ROOT}
+        ${CUDNN_ROOT}/include
+        ${CUDNN_ROOT}/include/${TARGET_ARCH}-linux-gnu
+        $ENV{CUDNN_ROOT}
+        $ENV{CUDNN_ROOT}/include
+        ${CUDA_TOOLKIT_INCLUDE}
         /usr/local/lib/python${PY_VERSION}/dist-packages/nvidia/cudnn/include/
   NO_DEFAULT_PATH)
 
 get_filename_component(__libpath_hist ${CUDA_CUDART_LIBRARY} PATH)
 
-set(TARGET_ARCH "x86_64")
-if(NOT ${CMAKE_SYSTEM_PROCESSOR})
-  set(TARGET_ARCH ${CMAKE_SYSTEM_PROCESSOR})
-endif()
-
 list(
   APPEND
   CUDNN_CHECK_LIBRARY_DIRS
 
@@ -33,9 +33,9 @@ set(XPU_FFT_LIB_NAME "libcufft.so")
 add_compile_definitions(XPUAPI_NOT_INCLUDE_DEPRECATED)
 
 if(NOT DEFINED XPU_XHPC_BASE_DATE)
-  set(XPU_XHPC_BASE_DATE "dev/20250417")
+  set(XPU_XHPC_BASE_DATE "dev/20250602")
 endif()
-set(XPU_XCCL_BASE_VERSION "3.0.2.5") # For XRE5
+set(XPU_XCCL_BASE_VERSION "3.0.2.7") # For XRE5
 if(NOT DEFINED XPU_XFT_BASE_VERSION)
   set(XPU_XFT_BASE_VERSION "20250507/xpu3")
 endif()
@@ -95,10 +95,18 @@ if(WITH_XPU_FFT)
   set(XPU_FFT_DIR_NAME "xpufft_ubuntu2004-x86_64")
 endif()
 
-if(WITH_AARCH64)
-  set(XPU_XRE_DIR_NAME "xre-kylin_aarch64")
-  set(XPU_XCCL_DIR_NAME "") # TODO: xccl has no kylin output now.
-  set(XPU_XFT_DIR_NAME "") # TODO: xft has no kylin output at now.
+if(WITH_ARM)
+  if(WITH_XPU_XRE5)
+    set(XPU_XRE_DIR_NAME "xre-kylin_v10_server-aarch64-${XPU_XRE_BASE_VERSION}")
+    # TODO: xccl has no kylin output now. set default value here.
+    set(XPU_XCCL_DIR_NAME "xccl_Linux_x86_64")
+    set(XPU_XHPC_DIR_NAME "xhpc-kylinv4_aarch64")
+    set(XPU_XFT_DIR_NAME "") # TODO: xft has no kylin output at now.
+  else()
+    set(XPU_XRE_DIR_NAME "")
+    set(XPU_XCCL_DIR_NAME "") # TODO: xccl has no kylin output now.
+    set(XPU_XFT_DIR_NAME "") # TODO: xft has no kylin output at now.
+  endif()
 elseif(WITH_SUNWAY)
   set(XPU_XRE_DIR_NAME "xre-deepin_sw6_64")
   set(XPU_XCCL_DIR_NAME "") # TODO: xccl has no deepin output at now.
@@ -349,17 +357,14 @@ if(WITH_XPU_XRE5)
     ${XPU_XBLAS_LIB}
     ${XPU_API_LIB}
     ${XPU_XFA_LIB}
-    ${XPU_XPUDNN_LIB})
+    ${XPU_XPUDNN_LIB}
+    ${XPU_ML_LIB})
 else()
   target_link_libraries(xpulib ${XPU_RT_LIB} ${XPU_API_LIB})
 endif()
 
 if(WITH_XPU_BKCL)
-  if(WITH_XPU_XRE5)
-    target_link_libraries(xpulib ${XPU_ML_LIB} ${XPU_BKCL_LIB})
-  else()
-    target_link_libraries(xpulib ${XPU_BKCL_LIB})
-  endif()
+  target_link_libraries(xpulib ${XPU_BKCL_LIB})
 endif()
 
 add_dependencies(xpulib ${XPU_PROJECT})
 
@@ -152,7 +152,6 @@ if(NOT WIN32)
       -fdata-sections
       -Wl
       -gc-sections
-      -Werror
       -Wall
       -Wextra
       -Wno-unused-parameter
 
@@ -210,6 +210,8 @@ OP_SAME_OPERANDS_AND_RESULT(YoloBoxHead)
 OP_SAME_OPERANDS_AND_RESULT(StandardGamma)
 OP_SAME_OPERANDS_AND_RESULT(MaskedFill)
 OP_SAME_OPERANDS_AND_RESULT(MaskedFill_)
+OP_SAME_OPERANDS_AND_RESULT(IndexElementwisePut)
+OP_SAME_OPERANDS_AND_RESULT(IndexElementwisePut_)
 
 bool ScaleOpInferSymbolicShape(pir::Operation *op,
                                pir::InferSymbolicShapeContext *infer_context) {
 
@@ -207,6 +207,8 @@ OP_DECLARE_INFER_SYMBOLIC_SHAPE(YoloBoxHead)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(StandardGamma)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(MaskedFill)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(MaskedFill_)
+OP_DECLARE_INFER_SYMBOLIC_SHAPE(IndexElementwisePut)
+OP_DECLARE_INFER_SYMBOLIC_SHAPE(IndexElementwisePut_)
 
 }  // namespace paddle::dialect
 
 
@@ -2314,15 +2314,40 @@ bool NanmedianOpInferSymbolicShape(
   if (mode == "avg") {
     median_shape.emplace_back(2);
   }
-  infer_context->SetShapeOrDataForValue(
-      op->result(0),
-      symbol::ShapeOrDataDimExprs{
-          symbol::TensorShapeOrDataDimExprs(out_shape)});
-  infer_context->SetShapeOrDataForValue(
-      op->result(1),
-      symbol::ShapeOrDataDimExprs{
-          symbol::TensorShapeOrDataDimExprs(median_shape)});
 
+  const auto &IsZero = [&](const symbol::DimExpr &dim_expr) {
+    if (dim_expr.isa<int64_t>()) {
+      return dim_expr.dyn_cast<int64_t>() == static_cast<int64_t>(0);
+    }
+    return false;
+  };
+  bool size_0 = false;
+  for (size_t i = 0; i < x_shape.size(); i++) {
+    if (IsZero(x_shape.at(i))) {
+      size_0 = true;
+      break;
+    }
+  }
+  if (size_0) {
+    std::vector<symbol::DimExpr> x_numel_0_shape = {};
+    infer_context->SetShapeOrDataForValue(
+        op->result(0),
+        symbol::ShapeOrDataDimExprs{
+            symbol::TensorShapeOrDataDimExprs(x_numel_0_shape)});
+    infer_context->SetShapeOrDataForValue(
+        op->result(1),
+        symbol::ShapeOrDataDimExprs{
+            symbol::TensorShapeOrDataDimExprs(x_numel_0_shape)});
+  } else {
+    infer_context->SetShapeOrDataForValue(
+        op->result(0),
+        symbol::ShapeOrDataDimExprs{
+            symbol::TensorShapeOrDataDimExprs(out_shape)});
+    infer_context->SetShapeOrDataForValue(
+        op->result(1),
+        symbol::ShapeOrDataDimExprs{
+            symbol::TensorShapeOrDataDimExprs(median_shape)});
+  }
   return true;
 }
 
 
@@ -1003,13 +1003,13 @@ bool WhileOp::InferSymbolicShape(
     auto yield_input_data_opt = yield_input_shape_or_data.data();
     auto input_data_opt =
         infer_context->GetShapeOrDataForValue(body_args[i]).data();
-    bool const_data_not_euqal =
+    bool const_data_not_equal =
         is_all_const_data(yield_input_data_opt) &&
         (!is_all_const_data(input_data_opt) ||
          is_all_const_data(input_data_opt) &&
              yield_input_data_opt.value() != input_data_opt.value());
     auto result_shape_or_data =
-        const_data_not_euqal
+        const_data_not_equal
             ? symbol::TensorShapeOrDataDimExprs(
                   yield_input_shape_or_data.shape(),
                   creat_new_data(yield_input_data_opt.value().size()))
 
@@ -13,8 +13,8 @@ endif()
 
 file(GLOB_RECURSE YAML_PATCH_FILES "*.yaml")
 # change pir version when new patches are added
-add_definitions(-DDEVELOP_VERSION=0)
-add_definitions(-DRELEASE_VERSION=1)
+add_definitions(-DDEVELOP_VERSION=2)
+add_definitions(-DRELEASE_VERSION=2)
 set(TEMPLATE_FILE ${CMAKE_CURRENT_SOURCE_DIR}/patch/template.h.in)
 set(PATCH_HEADER ${CMAKE_CURRENT_BINARY_DIR}/patch/patch.h)
 
 
@@ -2307,15 +2307,18 @@ void group_norm_grad(const Tensor& x,
       auto tmp1 = out_grad_data * (x_data - mean_new) * sqrt_var_1;
 
       auto scale_grad_tmp = reshape<T>(
-          tmp1.sum(reduce_axis_except_channel, scale->dtype(), false), {-1});
+          tmp1.sum(reduce_axis_except_channel, x_data.dtype(), false), {-1});
+      scale_grad_tmp = ConvertToOrig<T>(scale_grad_tmp, scale->dtype());
+
       set_output<T>(scale_grad_tmp, scale_grad);
     }
   }
 
   if (bias_grad) {
     if (bias) {
       auto bias_grad_tmp =
-          out_grad_data.sum(reduce_axis_except_channel, bias->dtype(), false);
+          out_grad_data.sum(reduce_axis_except_channel, x_data.dtype(), false);
+      bias_grad_tmp = ConvertToOrig<T>(bias_grad_tmp, bias->dtype());
 
       set_output<T>(reshape<T>(bias_grad_tmp, {-1}), bias_grad);
     }
 
@@ -930,6 +930,10 @@ static void parse_attr(PyObject *obj,
     auto attr = CastPyArg2DataType(
         obj, infer_spmd_string, static_cast<ssize_t>(arg_pos));
     ctx->EmplaceBackAttr(attr);
+  } else if (PyUnicode_Check(obj)) {
+    auto attr =
+        CastPyArg2String(obj, infer_spmd_string, static_cast<ssize_t>(arg_pos));
+    ctx->EmplaceBackAttr(attr);
   } else {  // TODO(ljz) support other types
     PADDLE_THROW(common::errors::InvalidArgument(
         "%s(): argument (position %d) must be "
 
@@ -29,6 +29,7 @@ typedef SSIZE_T ssize_t;
 #include "paddle/fluid/eager/hooks.h"
 #include "paddle/fluid/eager/utils.h"
 #include "paddle/fluid/framework/convert_utils.h"
+#include "paddle/fluid/framework/tensor_util.h"
 #include "paddle/fluid/platform/enforce.h"
 #include "paddle/fluid/pybind/eager.h"
 #include "paddle/fluid/pybind/eager_utils.h"
@@ -1398,6 +1399,61 @@ static PyObject* tensor_method_get_underline_tensor(TensorObject* self,
   EAGER_CATCH_AND_THROW_RETURN_NULL
 }
 
+static PyObject* tensor_method_set_underline_tensor(TensorObject* self,
+                                                    PyObject* args,
+                                                    PyObject* kwargs) {
+  EAGER_TRY
+  auto& value = GetTensorFromArgs("set_tensor", "value", args, 0, false);
+  if (!value.defined()) {
+    PADDLE_THROW(
+        common::errors::Unavailable("The `set_tensor()` method of (Dist)Tensor "
+                                    "get a non initialized src value"));
+  } else if (value.is_dense_tensor()) {
+    auto* src_tensor = static_cast<phi::DenseTensor*>(value.impl().get());
+    if (self->tensor.is_dense_tensor()) {
+      auto* dst_tensor =
+          static_cast<phi::DenseTensor*>(self->tensor.impl().get());
+      framework::TensorCopy(*src_tensor, dst_tensor->place(), dst_tensor);
+    } else {
+      PADDLE_THROW(common::errors::Unavailable(
+          "The `set_tensor()` method of non DenseTensor get a DenseTensor src "
+          "value"));
+    }
+
+  } else if (value.is_dist_tensor()) {
+#ifdef PADDLE_WITH_DISTRIBUTE
+    auto* src_tensor =
+        static_cast<phi::distributed::DistTensor*>(value.impl().get());
+    if (self->tensor.is_dist_tensor()) {
+      auto* dst_tensor =
+          static_cast<phi::distributed::DistTensor*>(self->tensor.impl().get());
+      framework::TensorCopy(*(src_tensor->unsafe_mutable_value()),
+                            dst_tensor->place(),
+                            dst_tensor->unsafe_mutable_value());
+
+      // TensorCopyFrom(dst_tensor->unsafe_mutable_value(),
+      // *(src_tensor->unsafe_mutable_value()), dst_tensor->place(), -1);
+    } else {
+      PADDLE_THROW(
+          common::errors::Unavailable("The `set_tensor()` method of non "
+                                      "DistTensor get a DistTensor src value"));
+    }
+#else
+    PADDLE_THROW(common::errors::Unavailable(
+        "The `set_tensor()` method of (Dist)Tensor is not supported in the "
+        "current PaddlePaddle, please recompile and installPaddlePaddle "
+        "with the option of `WITH_DISTRIBUTE=ON`."));
+#endif
+
+  } else {
+    PADDLE_THROW(common::errors::Unavailable(
+        "The `set_tensor()` method of (Dist)Tensor get a non "
+        "DenseTensor/DistTensor src value"));
+  }
+  RETURN_PY_NONE
+  EAGER_CATCH_AND_THROW_RETURN_NULL
+}
+
 static PyObject* tensor_method_get_underline_selected_rows(TensorObject* self,
                                                            PyObject* args,
                                                            PyObject* kwargs) {
@@ -1930,8 +1986,35 @@ static PyObject* tensor__setitem_dygraph(TensorObject* self,
         transed_sub_tensor =
             masked_fill__ad_func(transed_sub_tensor, mask_tensor, value_tensor);
       } else {
+#ifdef PADDLE_WITH_CUDA
+        // TODO(czy): remove in the future
+        if (transed_sub_tensor.is_gpu() && !out_is_view &&
+            transed_index.size() == 1 && value_tensor.numel() == 1) {
+          transed_index = expand_outplace(transed_index);
+          while (transed_index.size() <
+                 static_cast<size_t>(transed_sub_tensor.dims().size())) {
+            transed_index.emplace_back(empty_ad_func(
+                {}, transed_index[0].dtype(), transed_index[0].place()));
+          }
+
+          AdvancedIndex ad = AdvancedIndex(transed_sub_tensor, transed_index);
+          transed_sub_tensor =
+              index_elementwise_put__ad_func(transed_sub_tensor,
+                                             ad.indices,
+                                             value_tensor,
+                                             ad.src_sizes,
+                                             ad.src_strides,
+                                             ad.indexed_sizes,
+                                             ad.indexed_strides);
+
+        } else {
+          transed_sub_tensor = index_put__ad_func(
+              transed_sub_tensor, transed_index, value_tensor);
+        }
+#else
         transed_sub_tensor =
             index_put__ad_func(transed_sub_tensor, transed_index, value_tensor);
+#endif
       }
       if (out_is_view) {
         // NOTE(zoooo0820): if out_is_view is true, it is a case of
@@ -3643,6 +3726,10 @@ PyMethodDef variable_methods[] = {  // NOLINT
      (PyCFunction)(void (*)())tensor_method__get_tensor_from_selected_rows,
      METH_VARARGS | METH_KEYWORDS,
      nullptr},
+    {"set_tensor",
+     (PyCFunction)(void (*)())tensor_method_set_underline_tensor,
+     METH_VARARGS | METH_KEYWORDS,
+     nullptr},
     {"_getitem_dygraph",
      (PyCFunction)(void (*)())tensor__getitem_dygraph,
      METH_VARARGS | METH_KEYWORDS,
 
@@ -1265,6 +1265,19 @@ PYBIND11_MODULE(libpaddle, m) {
                     platform::BeginCUDAGraphCapture(
                         place, static_cast<paddle::gpuStreamCaptureMode>(mode));
                   })
+      .def_static(
+          "begin_capture_with_pool_id",
+          [](phi::GPUPlace place, int mode, std::optional<int64_t> pool_id) {
+            if (pool_id.has_value()) {
+              platform::BeginCUDAGraphCapture(
+                  place,
+                  static_cast<paddle::gpuStreamCaptureMode>(mode),
+                  pool_id.value());
+            } else {
+              platform::BeginCUDAGraphCapture(
+                  place, static_cast<paddle::gpuStreamCaptureMode>(mode));
+            }
+          })
       .def_static("end_capture", &platform::EndCUDAGraphCapture)
       .def_static("gen_new_memory_pool_id",
                   &phi::backends::gpu::CUDAGraph::UniqueMemoryPoolID)
Original file line number	Diff line number	Diff line change
`@@ -2307,15 +2307,18 @@ void group_norm_grad(const Tensor& x,`
`2307`	`2307`	`auto tmp1 = out_grad_data * (x_data - mean_new) * sqrt_var_1;`
`2308`	`2308`
`2309`	`2309`	`auto scale_grad_tmp = reshape<T>(`
`2310`		`- tmp1.sum(reduce_axis_except_channel, scale->dtype(), false), {-1});`
	`2310`	`+ tmp1.sum(reduce_axis_except_channel, x_data.dtype(), false), {-1});`
	`2311`	`+ scale_grad_tmp = ConvertToOrig<T>(scale_grad_tmp, scale->dtype());`
	`2312`	`+`
`2311`	`2313`	`set_output<T>(scale_grad_tmp, scale_grad);`
`2312`	`2314`	`}`
`2313`	`2315`	`}`
`2314`	`2316`
`2315`	`2317`	`if (bias_grad) {`
`2316`	`2318`	`if (bias) {`
`2317`	`2319`	`auto bias_grad_tmp =`
`2318`		`- out_grad_data.sum(reduce_axis_except_channel, bias->dtype(), false);`
	`2320`	`+ out_grad_data.sum(reduce_axis_except_channel, x_data.dtype(), false);`
	`2321`	`+ bias_grad_tmp = ConvertToOrig<T>(bias_grad_tmp, bias->dtype());`
`2319`	`2322`
`2320`	`2323`	`set_output<T>(reshape<T>(bias_grad_tmp, {-1}), bias_grad);`
`2321`	`2324`	`}`