PaddlePaddle
diff --git a/‎paddle/fluid/framework/new_executor/interpreter/execution_config.cc
+2-2 b/‎paddle/fluid/framework/new_executor/interpreter/execution_config.cc
+2-2
diff --git a/‎paddle/fluid/framework/new_executor/interpreter/interpreter_util.cc
+2-1 b/‎paddle/fluid/framework/new_executor/interpreter/interpreter_util.cc
+2-1
diff --git a/‎paddle/fluid/framework/new_executor/pir_interpreter.cc
+4-3 b/‎paddle/fluid/framework/new_executor/pir_interpreter.cc
+4-3
diff --git a/‎paddle/fluid/pir/dialect/op_generator/ops_api_gen.py
+1 b/‎paddle/fluid/pir/dialect/op_generator/ops_api_gen.py
+1
diff --git a/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/nullary_infer_sym.cc
+52 b/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/nullary_infer_sym.cc
+52
diff --git a/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/nullary_infer_sym.h
+1 b/‎paddle/fluid/pir/dialect/operator/interface/infer_symbolic_shape/nullary_infer_sym.h
+1
diff --git a/‎paddle/fluid/pir/dialect/operator/utils/utils.cc
-1 b/‎paddle/fluid/pir/dialect/operator/utils/utils.cc
-1
diff --git a/‎paddle/fluid/pybind/eager_generator.cc
+1 b/‎paddle/fluid/pybind/eager_generator.cc
+1
diff --git a/‎paddle/phi/infermeta/nullary.cc
+5-5 b/‎paddle/phi/infermeta/nullary.cc
+5-5
diff --git a/‎paddle/phi/kernels/cpu/p_recv_kernel.cc
+26 b/‎paddle/phi/kernels/cpu/p_recv_kernel.cc
+26
diff --git a/‎paddle/phi/kernels/gpu/p_recv_kernel.cu
+39 b/‎paddle/phi/kernels/gpu/p_recv_kernel.cu
+39
diff --git a/‎paddle/phi/kernels/gpu/p_send_kernel.cu
+1-1 b/‎paddle/phi/kernels/gpu/p_send_kernel.cu
+1-1
diff --git a/‎paddle/phi/kernels/xpu/p_recv_kernel.cc
+24 b/‎paddle/phi/kernels/xpu/p_recv_kernel.cc
+24
diff --git a/‎paddle/phi/kernels/xpu/p_send_kernel.cc
+1-1 b/‎paddle/phi/kernels/xpu/p_send_kernel.cc
+1-1
@@ -27,8 +27,8 @@
 // FLAGS_force_sync_ops is used to finer control the op-sync in executor.
 // The format is: "micro_batch_id, job_name, op_id, op_name | micro_batch_id,
 // job_name, op_id, op_name | ...". Keep spaces to syncs all name/id. Example:
-// 1. sync the recv_v2 op in the second backward-job of 1F1B scheduling:
-// FLAGS_force_sync_ops="1, backward, , recv_v2"
+// 1. sync the p_recv op in the second backward-job of 1F1B scheduling:
+// FLAGS_force_sync_ops="1, backward, , p_recv"
 // 2. sync the full op with op_id=5: FLAGS_force_sync_ops=" , , 5, full"
 // 3. sync all ops in the first default-job: FLAGS_force_sync_ops="0,default,,
 // 4. sync all ops in the forward-job and backward-job: FLAGS_force_sync_ops=" ,
 
@@ -142,6 +142,7 @@ bool IsCommunicationOp(const OperatorBase* op) {
       "recv",
       "send_v2",
       "recv_v2",
+      "p_recv",
   };
   const std::string communication_op_prefix = "c_";
   if (op_name.find(communication_op_prefix) != std::string::npos ||
@@ -169,7 +170,7 @@ bool IsCommunicationOp(const ::pir::Operation* op) {
   }
   const std::set<std::string> special_comm_op_set = {
       paddle::dialect::SendV2Op::name(),
-      paddle::dialect::RecvV2Op::name(),
+      paddle::dialect::PRecvOp::name(),
   };
   const std::string communication_op_prefix = "c_";
   if (op_name.find(communication_op_prefix) != std::string::npos ||
 
@@ -545,6 +545,7 @@ void PirInterpreter::UpdateNcclOpNum() {
       "pd_op.partial_recv",
       "pd_op.partial_allgather",
       "pd_op.recv_v2",
+      "pd_op.p_recv",
       "pd_op.send_v2",
       "pd_op.mp_allreduce_sum",
       "pd_op.barrier",
@@ -575,7 +576,7 @@ void PirInterpreter::UpdateNcclOpNum() {
       "pd_op.partial_send_grad",
       "pd_op.partial_recv_grad",
       "pd_op.partial_allgather_grad",
-      "pd_op.recv_v2_grad",
+      "pd_op.p_recv_grad",
       "pd_op.send_v2_grad",
       "pd_op.mp_allreduce_sum_grad",
       "pd_op.barrier_grad",
@@ -608,7 +609,7 @@ void PirInterpreter::UpdateNcclOpNum() {
       "pd_op.partial_send_",
       "pd_op.partial_recv_",
       "pd_op.partial_allgather_",
-      "pd_op.recv_v2_",
+      "pd_op.p_recv_",
       "pd_op.send_v2_",
       "pd_op.mp_allreduce_sum_",
       "pd_op.barrier_",
@@ -639,7 +640,7 @@ void PirInterpreter::UpdateNcclOpNum() {
       "pd_op.partial_send_grad_",
       "pd_op.partial_recv_grad_",
       "pd_op.partial_allgather_grad_",
-      "pd_op.recv_v2_grad_",
+      "pd_op.p_recv_grad_",
       "pd_op.send_v2_grad_",
       "pd_op.mp_allreduce_sum_grad_",
       "pd_op.barrier_grad_",
 
@@ -140,6 +140,7 @@
     'coalesce_tensor_',
     'send_v2',
     'recv_v2',
+    'p_recv',
     'sequence_expand',
     'sequence_softmax',
     'qkv_unpack_mha',
 
@@ -565,6 +565,58 @@ bool RecvV2OpInferSymbolicShape(pir::Operation *op,
   return true;
 }
 
+bool PRecvOpInferSymbolicShape(pir::Operation *op,
+                               pir::InferSymbolicShapeContext *infer_context) {
+  const int ring_id = op->attribute<pir::Int32Attribute>("ring_id").data();
+  const bool dynamic_shape =
+      op->attribute<pir::BoolAttribute>("dynamic_shape").data();
+  const int peer = op->attribute<pir::Int32Attribute>("peer").data();
+
+  PADDLE_ENFORCE_GE(
+      peer,
+      0,
+      common::errors::InvalidArgument(
+          "The peer (%d) for p_recv op must be non-negative.", peer));
+
+  PADDLE_ENFORCE_GE(
+      ring_id,
+      0,
+      common::errors::InvalidArgument(
+          "The ring_id (%d) for p_recv op must be non-negative.", ring_id));
+
+  const std::vector<int> out_shape =
+      paddle::dialect::details::GetVectorAttr<int>(op, "out_shape");
+  if (!dynamic_shape) {
+    PADDLE_ENFORCE_GE(out_shape.size(),
+                      1,
+                      common::errors::InvalidArgument(
+                          "The size of the output shape must be greater than 0 "
+                          "but the value given is %d.",
+                          out_shape.size()));
+
+    std::vector<symbol::DimExpr> output_shape;
+    for (size_t i = 0; i < out_shape.size(); ++i) {
+      PADDLE_ENFORCE_GE(out_shape[i],
+                        1,
+                        common::errors::InvalidArgument(
+                            "The shape attribute for p_recv must be set "
+                            "explicitly, but the %dth element is %d which "
+                            "is less than 1. Or dynamic_shape should be set to "
+                            "True for both send_v2 and p_recv.",
+                            i,
+                            out_shape[i]));
+      output_shape.push_back(symbol::DimExpr(out_shape[i]));
+    }
+
+    infer_context->SetShapeOrDataForValue(
+        op->result(0),
+        symbol::ShapeOrDataDimExprs{
+            symbol::TensorShapeOrDataDimExprs(output_shape)});
+  }
+
+  return true;
+}
+
 bool SeedOpInferSymbolicShape(pir::Operation *op,
                               pir::InferSymbolicShapeContext *infer_context) {
   std::vector<symbol::DimExpr> dims = {symbol::DimExpr(1)};
 
@@ -34,6 +34,7 @@ OP_DECLARE_INFER_SYMBOLIC_SHAPE(Randperm)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(ReadFile)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(Seed)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(RecvV2)
+OP_DECLARE_INFER_SYMBOLIC_SHAPE(PRecv)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(TrilIndices)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(TriuIndices)
 OP_DECLARE_INFER_SYMBOLIC_SHAPE(TruncatedGaussianRandom)
 
@@ -39,7 +39,6 @@ namespace dialect {
 const std::unordered_set<std::string> LegacyOpList = {
     DistributedPushSparseOp::name(),
     SendV2Op::name(),
-    RecvV2Op::name(),
     CAllreduceSumOp::name(),
     CAllreduceSum_Op::name(),
 };
 
@@ -3395,6 +3395,7 @@ std::map<std::string, std::set<std::string>> op_passing_outs_map = {
     {"accuracy", {"Correct", "Total"}},
     {"fill_constant", {"Out"}},
     {"recv_v2", {"Out"}},
+    {"p_recv", {"Out"}},
     {"partial_recv", {"Out"}},
     {"matmul", {"Out"}},
     {"c_broadcast", {"Out"}},
 
@@ -274,7 +274,7 @@ void PRecvArrayInferMeta(int peer,
         errors::InvalidArgument("The shape attribute for recv must be set "
                                 "explicitly, but the %dth element is %d which "
                                 "is less than 1. Or dynamic_shape should be "
-                                "set to True for both send_v2 and recv_v2.",
+                                "set to True for both send_v2 and p_recv.",
                                 i,
                                 out_shape[i]));
   }
@@ -291,13 +291,13 @@ void RecvV2InferMeta(const int ring_id,
       peer,
       0,
       errors::InvalidArgument(
-          "The peer (%d) for recv_v2 op must be non-negative.", peer));
+          "The peer (%d) for p_recv op must be non-negative.", peer));
 
   PADDLE_ENFORCE_GE(
       ring_id,
       0,
       errors::InvalidArgument(
-          "The ring_id (%d) for recv_v2 op must be non-negative.", ring_id));
+          "The ring_id (%d) for p_recv op must be non-negative.", ring_id));
 
   if (!dynamic_shape) {
     PADDLE_ENFORCE_GE(out_shape.size(),
@@ -310,10 +310,10 @@ void RecvV2InferMeta(const int ring_id,
       PADDLE_ENFORCE_GE(out_shape[i],
                         1,
                         errors::InvalidArgument(
-                            "The shape attribute for recv_v2 must be set "
+                            "The shape attribute for p_recv must be set "
                             "explicitly, but the %dth element is %d which "
                             "is less than 1. Or dynamic_shape should be "
-                            "set to True for both send_v2 and recv_v2.",
+                            "set to True for both send_v2 and p_recv.",
                             i,
                             out_shape[i]));
     }
 
@@ -33,6 +33,18 @@ void PRecvKernel(const Context& dev_ctx UNUSED,
   PADDLE_THROW(errors::Unavailable("Do not support recv for cpu kernel now."));
 }
 
+template <typename T, typename Context>
+void PRecv2Kernel(const Context& dev_ctx UNUSED,
+                  int ring_id UNUSED,
+                  bool dynamic_shape UNUSED,
+                  int peer UNUSED,
+                  const std::vector<int>& out_shape UNUSED,
+                  DataType dtype UNUSED,
+                  bool use_calc_stream UNUSED,
+                  DenseTensor* out UNUSED) {
+  PADDLE_THROW(errors::Unavailable("Do not support recv for cpu kernel now."));
+}
+
 template <typename T, typename Context>
 void PRecvArrayKernel(const Context& dev_ctx UNUSED,
                       int peer UNUSED,
@@ -59,6 +71,20 @@ PD_REGISTER_KERNEL(p_recv,
                    int64_t,
                    phi::dtype::float16) {}
 
+PD_REGISTER_KERNEL(p_recv2,
+                   CPU,
+                   ALL_LAYOUT,
+                   phi::PRecv2Kernel,
+                   float,
+                   double,
+                   int,
+                   bool,
+                   int8_t,
+                   uint8_t,
+                   int16_t,
+                   int64_t,
+                   phi::dtype::float16) {}
+
 PD_REGISTER_KERNEL(p_recv_array,
                    CPU,
                    ALL_LAYOUT,
 
@@ -58,6 +58,18 @@ void PRecvKernel(const Context& dev_ctx,
 #endif
 }
 
+template <typename T, typename Context>
+void PRecv2Kernel(const Context& dev_ctx UNUSED,
+                  int ring_id UNUSED,
+                  bool dynamic_shape UNUSED,
+                  int peer UNUSED,
+                  const std::vector<int>& out_shape UNUSED,
+                  DataType dtype UNUSED,
+                  bool use_calc_stream UNUSED,
+                  DenseTensor* out UNUSED) {
+  PRecvKernel<T, Context>(dev_ctx, peer, dtype, out_shape, dynamic_shape, out);
+}
+
 template <typename T, typename Context>
 void PRecvArrayKernel(const Context& dev_ctx,
                       int peer,
@@ -103,6 +115,20 @@ PD_REGISTER_KERNEL(p_recv,
                    int64_t,
                    phi::dtype::bfloat16,
                    phi::dtype::float16) {}
+PD_REGISTER_KERNEL(p_recv2,
+                   GPU,
+                   ALL_LAYOUT,
+                   phi::PRecv2Kernel,
+                   float,
+                   double,
+                   int,
+                   bool,
+                   int8_t,
+                   uint8_t,
+                   int16_t,
+                   int64_t,
+                   phi::dtype::bfloat16,
+                   phi::dtype::float16) {}
 
 PD_REGISTER_KERNEL(p_recv_array,
                    GPU,
@@ -131,6 +157,19 @@ PD_REGISTER_KERNEL(p_recv,
                    int16_t,
                    int64_t,
                    phi::dtype::float16) {}
+PD_REGISTER_KERNEL(p_recv2,
+                   GPU,
+                   ALL_LAYOUT,
+                   phi::PRecv2Kernel,
+                   float,
+                   double,
+                   int,
+                   bool,
+                   int8_t,
+                   uint8_t,
+                   int16_t,
+                   int64_t,
+                   phi::dtype::float16) {}
 
 PD_REGISTER_KERNEL(p_recv_array,
                    GPU,
 
@@ -38,7 +38,7 @@ void PSendKernel(const Context& dev_ctx,
     defined(PADDLE_WITH_RCCL) && NCCL_VERSION_CODE >= 2703
   auto comm_ctx =
       GetCommContext<Context, distributed::NCCLCommContext>(dev_ctx, peer);
-  gpuStream_t stream = dev_ctx.stream();
+  gpuStream_t stream = comm_ctx->GetStream();
   if (dynamic_shape) {
     send_shape_info<Context, distributed::NCCLCommContext, gpuStream_t>(
         dev_ctx, x, comm_ctx, peer, stream);
 
@@ -56,6 +56,18 @@ void PRecvKernel(const Context& dev_ctx,
 #endif
 }
 
+template <typename T, typename Context>
+void PRecv2Kernel(const Context& dev_ctx UNUSED,
+                  int ring_id UNUSED,
+                  bool dynamic_shape UNUSED,
+                  int peer UNUSED,
+                  const std::vector<int>& out_shape UNUSED,
+                  DataType dtype UNUSED,
+                  bool use_calc_stream UNUSED,
+                  DenseTensor* out UNUSED) {
+  PRecvKernel<T, Context>(dev_ctx, peer, dtype, out_shape, dynamic_shape, out);
+}
+
 template <typename T, typename Context>
 void PRecvArrayKernel(const Context& dev_ctx,
                       int peer,
@@ -96,6 +108,18 @@ PD_REGISTER_KERNEL(p_recv,
                    phi::dtype::bfloat16,
                    phi::dtype::float16) {}
 
+PD_REGISTER_KERNEL(p_recv2,
+                   XPU,
+                   ALL_LAYOUT,
+                   phi::PRecv2Kernel,
+                   float,
+                   double,
+                   uint8_t,
+                   int,
+                   int64_t,
+                   phi::dtype::bfloat16,
+                   phi::dtype::float16) {}
+
 PD_REGISTER_KERNEL(p_recv_array,
                    XPU,
                    ALL_LAYOUT,
 
@@ -36,7 +36,7 @@ void PSendKernel(const Context& dev_ctx,
 #if defined(PADDLE_WITH_XPU_BKCL)
   auto comm_ctx =
       GetCommContext<Context, distributed::BKCLCommContext>(dev_ctx, peer);
-  XPUStream stream = dev_ctx.stream();
+  XPUStream stream = comm_ctx->GetStream();
   if (dynamic_shape) {
     send_shape_info<Context, distributed::BKCLCommContext, XPUStream>(
         dev_ctx, x, comm_ctx, peer, stream);