PaddlePaddle
diff --git a/‎.gitignore
Lines changed: 5 additions & 0 deletions b/‎.gitignore
Lines changed: 5 additions & 0 deletions
diff --git a/‎cmake/external/cinn.cmake
Lines changed: 2 additions & 2 deletions b/‎cmake/external/cinn.cmake
Lines changed: 2 additions & 2 deletions
diff --git a/‎cmake/external/cutlass.cmake
Lines changed: 8 additions & 1 deletion b/‎cmake/external/cutlass.cmake
Lines changed: 8 additions & 1 deletion
diff --git a/‎cmake/external/mkldnn.cmake
Lines changed: 1 addition & 1 deletion b/‎cmake/external/mkldnn.cmake
Lines changed: 1 addition & 1 deletion
diff --git a/‎cmake/external/xpu.cmake
Lines changed: 1 addition & 1 deletion b/‎cmake/external/xpu.cmake
Lines changed: 1 addition & 1 deletion
diff --git a/‎cmake/inference_lib.cmake
Lines changed: 1 addition & 3 deletions b/‎cmake/inference_lib.cmake
Lines changed: 1 addition & 3 deletions
diff --git a/‎cmake/third_party.cmake
Lines changed: 1 addition & 1 deletion b/‎cmake/third_party.cmake
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/extension.h
Lines changed: 4 additions & 0 deletions b/‎paddle/extension.h
Lines changed: 4 additions & 0 deletions
diff --git a/‎paddle/fluid/distributed/CMakeLists.txt
Lines changed: 1 addition & 1 deletion b/‎paddle/fluid/distributed/CMakeLists.txt
Lines changed: 1 addition & 1 deletion
diff --git a/‎paddle/fluid/eager/grad_node_info.cc
Lines changed: 62 additions & 0 deletions b/‎paddle/fluid/eager/grad_node_info.cc
Lines changed: 62 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/grad_node_info.h
Lines changed: 3 additions & 0 deletions b/‎paddle/fluid/eager/grad_node_info.h
Lines changed: 3 additions & 0 deletions
diff --git a/‎paddle/fluid/eager/to_static/run_program_op_func.h
Lines changed: 22 additions & 19 deletions b/‎paddle/fluid/eager/to_static/run_program_op_func.h
Lines changed: 22 additions & 19 deletions
@@ -9,14 +9,19 @@ paddle/fluid/operators/ops_extra_info.cc
 paddle/phi/api/backward/backward_api.h
 paddle/phi/api/backward/sparse_bw_api.h
 paddle/phi/api/include/api.h
+paddle/phi/api/include/operants_base.h
+paddle/phi/api/include/operants_manager.h
 paddle/phi/api/include/sparse_api.h
 paddle/phi/api/include/strings_api.h
+paddle/phi/api/include/tensor_operants.h
 paddle/phi/api/lib/api.cc
 paddle/phi/api/lib/dygraph_api.*
 paddle/phi/api/lib/backward_api.cc
+paddle/phi/api/lib/operants_manager.cc
 paddle/phi/api/lib/sparse_api.cc
 paddle/phi/api/lib/strings_api.cc
 paddle/phi/api/lib/sparse_bw_api.cc
+paddle/phi/api/lib/tensor_operants.cc
 paddle/phi/extension.h
 paddle/phi/include/*
 paddle/phi/infermeta/generated.*
 
@@ -17,8 +17,8 @@ if(NOT WITH_CINN)
 endif()
 
 if(NOT CINN_GIT_TAG)
-  # 2023.02.09 commit
-  set(CINN_GIT_TAG 63cf4267a0f8756df61b0dca5fb30bf3748ba2f4)
+  # 2023.02.16 commit
+  set(CINN_GIT_TAG ec7f1a87b195b9586e69f9f30a2b647dcf8b9def)
 endif()
 
 message(STATUS "CINN version: " ${CINN_GIT_TAG})
 
@@ -34,7 +34,14 @@ ExternalProject_Add(
   PREFIX ${CUTLASS_PREFIX_DIR}
   UPDATE_COMMAND ""
   CONFIGURE_COMMAND ""
-  BUILD_COMMAND ""
+  BUILD_COMMAND
+    mkdir -p
+    ${CMAKE_SOURCE_DIR}/paddle/phi/kernels/sparse/gpu/cutlass/build/generated/gemm
+    && ${PYTHON_EXECUTABLE} -B
+    ${CMAKE_SOURCE_DIR}/paddle/phi/kernels/sparse/gpu/cutlass/gather_gemm_scatter_generator.py
+    "${THIRD_PARTY_PATH}/cutlass/src/extern_cutlass/tools/library/scripts/"
+    "${CMAKE_SOURCE_DIR}/paddle/phi/kernels/sparse/gpu/cutlass/build"
+    "${CMAKE_CUDA_COMPILER_VERSION}"
   INSTALL_COMMAND ""
   TEST_COMMAND "")
 
 
@@ -21,7 +21,7 @@ set(MKLDNN_INC_DIR
     "${MKLDNN_INSTALL_DIR}/include"
     CACHE PATH "mkldnn include directory." FORCE)
 set(MKLDNN_REPOSITORY ${GIT_URL}/oneapi-src/oneDNN.git)
-set(MKLDNN_TAG 9b186765dded79066e0cd9c17eb70b680b76fb8e)
+set(MKLDNN_TAG 2089770c4818be8933c5e9d1dd3cbaeba1457667)
 
 # Introduce variables:
 # * CMAKE_INSTALL_LIBDIR
 
@@ -7,7 +7,7 @@ set(XPU_PROJECT "extern_xpu")
 set(XPU_API_LIB_NAME "libxpuapi.so")
 set(XPU_RT_LIB_NAME "libxpurt.so")
 
-set(XPU_BASE_DATE "20230215")
+set(XPU_BASE_DATE "20230220")
 set(XPU_XCCL_BASE_VERSION "1.0.8")
 
 if(NOT DEFINED XPU_BASE_URL)
 
@@ -448,10 +448,8 @@ add_dependencies(fluid_lib_dist ${platform_lib_deps})
 copy(
   fluid_lib_dist
   SRCS ${src_dir}/${module}/*.h ${src_dir}/${module}/dynload/*.h
-       ${src_dir}/${module}/details/*.h
        ${PADDLE_BINARY_DIR}/paddle/phi/api/profiler/*.pb.h
-  DSTS ${dst_dir}/${module} ${dst_dir}/${module}/dynload
-       ${dst_dir}/${module}/details ${dst_dir}/${module})
+  DSTS ${dst_dir}/${module} ${dst_dir}/${module}/dynload ${dst_dir}/${module})
 
 set(module "string")
 copy(
 
@@ -301,7 +301,7 @@ if(TARGET extern_protobuf)
   list(APPEND third_party_deps extern_protobuf)
 endif()
 
-if(WITH_PYTHON)
+if(NOT ((NOT WITH_PYTHON) AND ON_INFER))
   include(external/python) # find python and python_module
   include(external/pybind11) # download pybind11
   list(APPEND third_party_deps extern_pybind)
 
@@ -16,3 +16,7 @@ limitations under the License. */
 
 // All paddle apis in C++ frontend
 #include "paddle/phi/api/all.h"
+// Python bindings for the C++ frontend
+#ifndef PADDLE_ON_INFERENCE
+#include "paddle/utils/pybind.h"
+#endif
@@ -7,7 +7,7 @@ if(WITH_PYTHON)
   file(MAKE_DIRECTORY
        ${PADDLE_BINARY_DIR}/python/paddle/distributed/fleet/proto)
   set(PSLIB_PROTO_DSTPATH
-      "${PADDLE_SOURCE_DIR}/python/paddle/fluid/incubate/fleet/parameter_server/pslib/"
+      "${PADDLE_SOURCE_DIR}/python/paddle/incubate/fleet/parameter_server/pslib/"
   )
   if(NOT WIN32)
     add_custom_command(
 
@@ -326,6 +326,68 @@ void GradNodeBase::SetGradOutMeta(
   }
 }
 
+void GradNodeBase::SetGradOutMeta(
+    const std::vector<const paddle::experimental::Tensor*>& fwd_in,
+    size_t slot_rank) {
+  size_t slot_size = fwd_in.size();
+  PADDLE_ENFORCE_LE(
+      slot_rank,
+      (bwd_out_meta_.size() - 1),
+      paddle::platform::errors::InvalidArgument(
+          "Slot Rank should less equal than bwd_out_meta_ size, "
+          "since bwd_out_meta_ is designed to hold as same num as "
+          "backward outputs."));
+  auto& metas = bwd_out_meta_.at(slot_rank);
+  // Init stop gradient vector before use to avoid push back
+  if (metas.size() < slot_size) {
+    metas.resize(slot_size);
+  }
+  for (size_t i = 0; i < slot_size; i++) {
+    const auto& fwd_in_tensor = (*fwd_in[i]);
+    auto& meta = metas[i];
+    auto* fwd_in_meta = egr::EagerUtils::nullable_autograd_meta(fwd_in_tensor);
+    // Set Stop_gradient
+    if (fwd_in_meta) {
+      meta.SetStopGradient(fwd_in_meta->StopGradient());
+    }
+    // Set Adj Edges
+    if (fwd_in_meta && !fwd_in_meta->StopGradient()) {
+      auto node = fwd_in_meta->GetMutableGradNode();
+      if (!node || !node.get()) {
+        fwd_in_meta->SetGradNode(
+            std::make_shared<egr::GradNodeAccumulation>(fwd_in_meta));
+      }
+      VLOG(3) << "Add Edges for slot: " << slot_rank << ", the Edge is from "
+              << this->name() << " (addr: " << this << ") "
+              << " to " << fwd_in_meta->GetMutableGradNode()->name()
+              << " (addr: " << fwd_in_meta->GetMutableGradNode().get() << ")";
+
+      meta.SetEdge(fwd_in_meta->GetMutableGradNode(),
+                   fwd_in_meta->OutRankInfo());
+    }
+    // Record TensorMeta
+    if (fwd_in_tensor.impl() && fwd_in_tensor.impl().get()) {
+      if (phi::DenseTensor::classof(fwd_in_tensor.impl().get())) {
+        // Only Copy Meta
+        phi::DenseTensor* dense_tensor =
+            static_cast<phi::DenseTensor*>(fwd_in_tensor.impl().get());
+        PADDLE_ENFORCE_NE(dense_tensor->dtype(),
+                          phi::DataType::UNDEFINED,
+                          paddle::platform::errors::Fatal(
+                              "Attempting to copy DenseTensorMeta "
+                              "with phi::DataType::UNDEFINED,"
+                              "which is illegal."));
+        meta.SetTensorMeta(dense_tensor->meta());
+        meta.SetPlace(fwd_in_tensor.place());
+      }
+    } else {
+      VLOG(7)
+          << "Unable to initialize the DenseTensorMeta of GradSlotMeta with "
+             "non-DenseTensor argument.";
+    }
+  }
+}
+
 void GradNodeBase::SetDefaultGradInOutMeta() {
   PADDLE_ENFORCE((bwd_out_meta_.size() == 1) && (bwd_in_meta_.size() == 1),
                  paddle::platform::errors::PreconditionNotMet(
 
@@ -223,6 +223,9 @@ class GradNodeBase {
 
   void SetGradOutMeta(const std::vector<paddle::experimental::Tensor>& fwd_in,
                       size_t slot_rank);
+  void SetGradOutMeta(
+      const std::vector<const paddle::experimental::Tensor*>& fwd_in,
+      size_t slot_rank);
   void SetGradOutMeta(const paddle::experimental::Tensor& fwd_in,
                       size_t slot_rank);
   /**
 
@@ -93,28 +93,31 @@ inline void run_program_ad_func(
     grad_node->SetStepScope(step_scope);
 
     // Set Grad out rank as same as fwd input and set stop gradient to bwd
-    grad_node->SetGradOutMeta(x, /*slot id*/ 0);
+    // NOTE(@xiongkun): Not every tensor in x(list of tensor) is required
+    // gradient. for example: x[1] is not used for output, the x[1] is ignored.
+
+    auto* forward_global_block = PADDLE_GET_CONST(
+        paddle::framework::BlockDesc*, attrs.at("forward_global_block"));
+    auto* backward_global_block = PADDLE_GET_CONST(
+        paddle::framework::BlockDesc*, attrs.at("backward_global_block"));
+    std::vector<const paddle::experimental::Tensor*> x_require_grad;
+    for (size_t i = 0; i < x.size(); ++i) {
+      auto& name = x[i].name();
+      if (forward_global_block->HasVar(name) ||
+          backward_global_block->HasVar(name)) {
+        x_require_grad.push_back(&x[i]);
+      }
+    }
+
+    grad_node->SetGradOutMeta(x_require_grad, /*slot id*/ 0);
     grad_node->SetGradOutMeta(params, /*slot id*/ 1);
 
-    bool use_interpretorcore =
-        PADDLE_GET_CONST(bool, attrs.at("use_interpretorcore"));
     VLOG(2) << "clear_no_grad_edges.";
-    if (use_interpretorcore) {
-      auto* forward_global_block = PADDLE_GET_CONST(
-          paddle::framework::BlockDesc*, attrs.at("forward_global_block"));
-      auto* backward_global_block = PADDLE_GET_CONST(
-          paddle::framework::BlockDesc*, attrs.at("backward_global_block"));
-      clear_no_grad_edges_with_partial_block(params,
-                                             forward_global_block,
-                                             backward_global_block,
-                                             grad_node.get(),
-                                             /*slot id*/ 1);
-
-    } else {
-      auto* global_block = PADDLE_GET_CONST(paddle::framework::BlockDesc*,
-                                            attrs.at("global_block"));
-      clear_no_grad_edges(params, global_block, grad_node.get(), /*slot id*/ 1);
-    }
+    clear_no_grad_edges_with_partial_block(params,
+                                           forward_global_block,
+                                           backward_global_block,
+                                           grad_node.get(),
+                                           /*slot id*/ 1);
 
     grad_node->SetGradInMeta(deref_out, 0);
Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,7 @@ if(WITH_PYTHON)`
`7`	`7`	`file(MAKE_DIRECTORY`
`8`	`8`	`${PADDLE_BINARY_DIR}/python/paddle/distributed/fleet/proto)`
`9`	`9`	`set(PSLIB_PROTO_DSTPATH`
`10`		`- "${PADDLE_SOURCE_DIR}/python/paddle/fluid/incubate/fleet/parameter_server/pslib/"`
	`10`	`+ "${PADDLE_SOURCE_DIR}/python/paddle/incubate/fleet/parameter_server/pslib/"`
`11`	`11`	`)`
`12`	`12`	`if(NOT WIN32)`
`13`	`13`	`add_custom_command(`