diff --git a/docs/eval/evaluation_of_docs_system.md b/docs/eval/evaluation_of_docs_system.md index f446855348c..7a909a32597 100644 --- a/docs/eval/evaluation_of_docs_system.md +++ b/docs/eval/evaluation_of_docs_system.md @@ -480,7 +480,7 @@ MindSpore 的有自己独立的文档分类标准和风格,所以硬套本文 - PyTorch-PaddlePaddle API 映射表 - 硬件支持 - 飞桨产品硬件支持表 - - 昆仑 XPU 芯片运行飞桨 + - 昆仑芯 XPU 芯片运行飞桨 - 海光 DCU 芯片运行飞桨 - 昇腾 NPU 芯片运行飞桨 - 参与开发 @@ -564,7 +564,7 @@ MindSpore 的有自己独立的文档分类标准和风格,所以硬套本文 | 自定义算子 | Tensors and operations Custom layers Custom traning: walkthrough Create an op Extension types | 5 | Double Backward with Custom Functions Fusing Convolution and Batch Norm using Custom Function Custom C++ and CUDA Extensions Extending TorchScript with Custom C++ Operators Extending TorchScript with Custom C++ Classes Registering a Dispatched Operator in C++ Extending dispatcher for a new backend in C++ | 7 | 算子分类 运算重载 自定义算子(CPU) 自定义算子(GPU) 自定义算子(Ascend) 自定义算子(基于 Custom 表达) | 6 | 自定义原生算子 原生算子开发注意事项 自定义外部算子 自定义 Python 算子 API 介绍 API 示例 本地开发指南 提交 PR 注意事项 FAQ | 9 | | 分布式训练 | Distributed training with Kereas Distributed training with DTensors Using DTensors with Keras Custom training loops Multi-worker training with Keras Multi-worker training with CTL Parameter Server Training Distributed input Distributed training | 9 | PyTorch Distributed Overview Single-Machine Model Parallel Best PracticesGetting Started with Distributed Data Parallel Writing Distributed Applications with PyTorch Getting Started with Fully Sharded Data Prallel Customize Process Group Backends Using Cpp Extension Getting Started with Distributed RPC Framework Implementing a Parameter Server Using Distributed RPC Framework Distributed Pipeline Parallelsim using RPC Implementing Batch RPC Processing Using Asynchronous Executions Combining Distributed DataPrallel with Distributed RPC Framework Training Transformer models using Pipeline Parallelism Training Transformer models using Distributed Data Parallel and Pipeline Parallelism Distributed Training with Uneven Inputs Using the Join Context Manager | 16 | 分布式并行总览 分布式集合通信原语 分布式并行训练基础样例(Ascend) 分布式并行训练基础样例(GPU) 分布式推理 保存和加载模型(HyBrid Parallel 模式) 分布式并行训练 Transformer 模型 鹏程·盘古模型网络多维度混合并行解析 分布式故障恢复 | 9 | 单机多卡训练 分布式训练开始 使用 FleetAPI 进行分布式训练 | 3 | | 框架设计文档 | Random number generation | 1 | 分散在 API 文档、源码中,其实比较丰富。30+ | 30+ | 设计白皮书 全场景统一 函数式微分编程 动静态图结合 异构并行训练 分布式并行 中间表达 MindIR 高性能数据处理引擎 图算融合加速引擎 二阶优化 可视化调试调优 安全可信 术语 | 13 | | 0 | -| 其它 | Integrated gradients Uncertainty quantification with SNGP Probabilistic regression Keras 一级标题下的 13 篇文章 Thinking in TensorFlow 2 Data input pipelines 一级标题下的 3 篇 GPU TPU | 20 | Learn the Basics Quickstart Deep Learning with PyTorch: A 60 Minute Blitz Building a Convolution/Batch Norm fuser in FX Building a Simple CPU Performance Profiler with FX Channels Last Memory Format in PyTorch Forward-mode Automatic Differentiation Using the PyTorch C++ Frontend Dynamic Parallelism in TorchScript Autograd in C++ Frontend Static Quantization with Eager Model in PyTorch | 11 | 基本介绍 快速入门 进阶案例:线性拟合 混合精度 梯度累积算法 自适应梯度求和算法 降维训练算法 | 7 | 10 分钟快速上手飞桨 使用线性回归预测波士顿房价 模型导出 ONNX 协议 飞桨产品硬件支持表 昆仑 XPU 芯片运行飞桨 海光 DCU 芯片运行飞桨 昇腾 NPU 芯片运行飞桨 环境变量 FLAGS 下 9 篇 hello paddle:从普通程序走向机器学习程序 通过 AutoEncoder 实现时序数据异常检测 广播介绍 自动混合精度训练 梯度裁剪 升级指南 | 20+ | +| 其它 | Integrated gradients Uncertainty quantification with SNGP Probabilistic regression Keras 一级标题下的 13 篇文章 Thinking in TensorFlow 2 Data input pipelines 一级标题下的 3 篇 GPU TPU | 20 | Learn the Basics Quickstart Deep Learning with PyTorch: A 60 Minute Blitz Building a Convolution/Batch Norm fuser in FX Building a Simple CPU Performance Profiler with FX Channels Last Memory Format in PyTorch Forward-mode Automatic Differentiation Using the PyTorch C++ Frontend Dynamic Parallelism in TorchScript Autograd in C++ Frontend Static Quantization with Eager Model in PyTorch | 11 | 基本介绍 快速入门 进阶案例:线性拟合 混合精度 梯度累积算法 自适应梯度求和算法 降维训练算法 | 7 | 10 分钟快速上手飞桨 使用线性回归预测波士顿房价 模型导出 ONNX 协议 飞桨产品硬件支持表 昆仑芯 XPU 芯片运行飞桨 海光 DCU 芯片运行飞桨 昇腾 NPU 芯片运行飞桨 环境变量 FLAGS 下 9 篇 hello paddle:从普通程序走向机器学习程序 通过 AutoEncoder 实现时序数据异常检测 广播介绍 自动混合精度训练 梯度裁剪 升级指南 | 20+ | 可以看除,PaddlePaddle 在文档上是比较完备的,在本文划分的 19 个具体领域中的 17 个领域中都已有文档,包括: diff --git a/docs/guides/06_distributed_training/deployment_cn.rst b/docs/guides/06_distributed_training/deployment_cn.rst index 9daa0be52ed..fc948ba2f85 100644 --- a/docs/guides/06_distributed_training/deployment_cn.rst +++ b/docs/guides/06_distributed_training/deployment_cn.rst @@ -12,7 +12,7 @@ PaddlePaddle 分布式对不同系统和硬件的支持情况如下表所示, * - - CPU - GPU - - 昆仑 XPU + - 昆仑芯 XPU - 海光 DCU - 昇腾 NPU * - Linux diff --git a/docs/guides/06_distributed_training/ps/cluster_overview_ps_cn.rst b/docs/guides/06_distributed_training/ps/cluster_overview_ps_cn.rst index 532239a5e07..6bbf3c36013 100644 --- a/docs/guides/06_distributed_training/ps/cluster_overview_ps_cn.rst +++ b/docs/guides/06_distributed_training/ps/cluster_overview_ps_cn.rst @@ -86,7 +86,7 @@ RPC&NCCL 混合通信可以将部分稀疏参数采用 RPC 协议跨节点通信 1. 定制化 GPU 机型,调整机器内 CPU 与 GPU 的硬件配比。 2. 混布 CPU 和 GPU 机器节点,来调整机器间的硬件配比。 -基于这两种解决方案,飞桨框架 2.0 版本创新性地推出了通用异构参数服务器功能(HeterPS)。一举解除了传统参数服务器模式下,Worker 节点必须严格使用同一种硬件型号的枷锁,使训练任务对硬件型号不敏感,即可以同时使用不同的硬件混合异构训练,如 CPU、AI 专用芯片(如百度昆仑 XPU)以及不同型号的 GPU 如 v100、P40、K40 等。同时还可以解决大规模稀疏特征模型训练场景下 IO 占比过高导致的芯片资源利用率过低的问题。通过异构参数服务器训练模式,用户可以在硬件异构集群中部署分布式训练任务,例如云服务器集群,高效利用不同算力芯片,为用户提供更高吞吐、更低资源消耗的训练能力。 +基于这两种解决方案,飞桨框架 2.0 版本创新性地推出了通用异构参数服务器功能(HeterPS)。一举解除了传统参数服务器模式下,Worker 节点必须严格使用同一种硬件型号的枷锁,使训练任务对硬件型号不敏感,即可以同时使用不同的硬件混合异构训练,如 CPU、AI 专用芯片(如百度昆仑芯 XPU)以及不同型号的 GPU 如 v100、P40、K40 等。同时还可以解决大规模稀疏特征模型训练场景下 IO 占比过高导致的芯片资源利用率过低的问题。通过异构参数服务器训练模式,用户可以在硬件异构集群中部署分布式训练任务,例如云服务器集群,高效利用不同算力芯片,为用户提供更高吞吐、更低资源消耗的训练能力。 .. image:: ../images/heterps.jpeg :width: 600 diff --git a/docs/guides/beginner/train_eval_predict_cn.ipynb b/docs/guides/beginner/train_eval_predict_cn.ipynb index 92da127c525..30fca137bde 100644 --- a/docs/guides/beginner/train_eval_predict_cn.ipynb +++ b/docs/guides/beginner/train_eval_predict_cn.ipynb @@ -111,7 +111,7 @@ "\n", "> 注:\n", "> * 本文仅以单机单卡场景为例,介绍模型训练的方法,如果需要使用单机多卡、多机多卡训练,请参考如下章节:[分布式训练](../06_distributed_training/index_cn.html)。\n", - "> * 飞桨框架除了支持在 CPU、GPU 上训练,还支持在百度昆仑 XPU、华为昇腾 NPU 等 AI 计算处理器上训练,对应的训练指导请参考 [硬件支持](../hardware_support/index_cn.html) 章节。\n" + "> * 飞桨框架除了支持在 CPU、GPU 上训练,还支持在百度昆仑芯 XPU、华为昇腾 NPU 等 AI 计算处理器上训练,对应的训练指导请参考 [硬件支持](../hardware_support/index_cn.html) 章节。\n" ] }, { diff --git a/docs/guides/hardware_support/hardware_info_cn.md b/docs/guides/hardware_support/hardware_info_cn.md index 43ea98586bf..1acb111f7d1 100644 --- a/docs/guides/hardware_support/hardware_info_cn.md +++ b/docs/guides/hardware_support/hardware_info_cn.md @@ -10,7 +10,7 @@ | 服务端 GPU | | NVIDIA | Ada Lovelace、Hopper、 Ampere、Turing、 Volta 架构 | [安装](https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/pip/linux-pip.html) | [源码编译](https://www.paddlepaddle.org.cn/install/quick?docurl=/documentation/docs/zh/install/compile/linux-compile.html) | ✔️ | | | AI 加速芯片 | 达芬奇 | 华为 | 昇腾 910 系列 | [安装](./npu/install_cn.html#wheel) | [源码编译](./npu/install_cn.html) | | ✔️ | | AI 加速芯片 | GPGPU | 海光 | 海光 Z100 系列 | [安装](./dcu/install_cn.html#wheel) | [源码编译](./dcu/install_cn.html) | | [支持模型](./dcu/support_cn.html) | -| AI 加速芯片 | XPU | 百度 | 昆仑 R200、R300 等 | [安装](./xpu/install_cn.html#wheel) | [源码编译](./xpu/install_cn.html#xpu) | | [支持模型](./xpu/support_cn.html) | +| AI 加速芯片 | XPU | 百度 | 昆仑芯 R200、R300 等 | [安装](./xpu/install_cn.html#wheel) | [源码编译](./xpu/install_cn.html#xpu) | | [支持模型](./xpu/support_cn.html) | | AI 加速芯片 | IPU | Graphcore | GC200 | | | | ✔️ | | AI 加速芯片 | MLU | 寒武纪 | MLU370 系列 | [安装](./mlu/install_cn.html#wheel) | [源码编译](./mlu/install_cn.html) | | [支持模型](./mlu/support_cn.html) | | AI 加速芯片 | | 天数智芯 | 天垓 100 | [安装](https://gitee.com/deep-spark/deepsparkhub/blob/master/docker/Iluvatar/README.md) || | | ✔️ | @@ -29,7 +29,7 @@ | AI 加速芯片 | MLU | 寒武纪 | MLU370 系列 | | [源码编译](./mlu/install_cn.html) | | ✔️ | | AI 加速芯片 | MUSA | 摩尔线程 | MTT S 系列 GPU | | | | | | AI 加速芯片 | GPGPU | 海光 | 海光 Z100 系列 | | [源码编译](https://www.paddlepaddle.org.cn/inference/master/guides/hardware_support/dcu_hygon_cn.html) | | [支持模型](./dcu/support_cn.html) | -| AI 加速芯片 | XPU | 百度 | 昆仑 R200、R300 等 | | [源码编译](https://www.paddlepaddle.org.cn/inference/master/guides/hardware_support/xpu_kunlun_cn.html) | | [支持模型](./xpu/support_cn.html) | +| AI 加速芯片 | XPU | 百度 | 昆仑芯 R200、R300 等 | | [源码编译](https://www.paddlepaddle.org.cn/inference/master/guides/hardware_support/xpu_kunlun_cn.html) | | [支持模型](./xpu/support_cn.html) | | 服务端 CPU | ARM | 飞腾 | FT-2000+/64、S2500 | |[源码编译](../../install/compile/arm-compile.html#anchor-1) | | | | 服务端 CPU | ARM | 华为 | 鲲鹏 920 2426SK | |[源码编译](../../install/compile/arm-compile.html) | | | | 服务端 CPU | MIPS | 龙芯 | 龙芯 3A4000、3A5000、3C5000L | |[源码编译](../../install/compile/mips-compile.html#anchor-0) | | | @@ -49,7 +49,7 @@ | AI 加速芯片 | | 瑞芯微 | RK18xx 系列 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/rockchip_npu.html#id5) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/rockchip_npu.html#id1) | | AI 加速芯片 | | 联发科 | NeuroPilot APU | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/mediatek_apu.html#id1) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/mediatek_apu.html#id1) | | AI 加速芯片 | | Imagination | PowerVR 2NX | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/huawei_kirin_npu.html#id5) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/huawei_kirin_npu.html#id1) | -| AI 加速芯片 | | 百度 | 昆仑 R200、R300 等 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id4) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id1) | +| AI 加速芯片 | | 百度 | 昆仑芯 R200、R300 等 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id4) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id1) | | AI 加速芯片 | | 寒武纪 | 思元系列芯片 | | [源码编译](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/cambricon_mlu.html#cankaoshiliyanshi) | | [支持模型](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/cambricon_mlu.html#paddle) | | AI 加速芯片 | | 比特大陆 | 算丰 BM16 系列芯片 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/bitmain.html#id5) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/bitmain.html#id1) | | AI 加速芯片 | | 紫光展锐 | T820 | | [源码编译](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/android_nnapi.html#android-nnapi-paddle-lite) | | [支持模型](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/android_nnapi.html#paddle) | diff --git a/docs/guides/hardware_support/index_cn.rst b/docs/guides/hardware_support/index_cn.rst index cee30ce1216..1ab20ff6446 100644 --- a/docs/guides/hardware_support/index_cn.rst +++ b/docs/guides/hardware_support/index_cn.rst @@ -7,7 +7,7 @@ 你可以通过以下内容,了解飞桨框架硬件支持相关的内容: - `飞桨硬件支持 <./hardware_info_cn.html>`_ : 说明飞桨产品支持的硬件。 -- `昆仑 XPU 芯片运行飞桨 <./xpu/index_cn.html>`_ : 介绍如何在昆仑 XPU 芯片环境上安装和使用飞桨。 +- `昆仑芯 XPU 芯片运行飞桨 <./xpu/index_cn.html>`_ : 介绍如何在昆仑芯 XPU 芯片环境上安装和使用飞桨。 - `海光 DCU 芯片运行飞桨 <./dcu/index_cn.html>`_ : 介绍如何在海光 DCU 芯片环境上安装和使用飞桨。 - `昇腾 NPU 芯片运行飞桨 <./npu/index_cn.html>`_ : 介绍如何在昇腾 NPU 芯片环境上安装和使用飞桨。 - `寒武纪 MLU 芯片运行飞桨 <./mlu/index_cn.html>`_ : 介绍如何在寒武纪 MLU 芯片环境上安装和使用飞桨。 diff --git a/docs/guides/hardware_support/xpu/example_cn.md b/docs/guides/hardware_support/xpu/example_cn.md index ab26b4704f3..822b9b6dfa1 100644 --- a/docs/guides/hardware_support/xpu/example_cn.md +++ b/docs/guides/hardware_support/xpu/example_cn.md @@ -1,10 +1,10 @@ -# 昆仑 XPU 运行示例 +# 昆仑芯 XPU 运行示例 -**预先要求**:请先根据文档 [昆仑 XPU 安装说明](./install_cn.html) 准备昆仑 XPU 运行环境,建议以下步骤都在 docker 环境中运行。 +**预先要求**:请先根据文档 [昆仑芯 XPU 安装说明](./install_cn.html) 准备昆仑芯 XPU 运行环境,建议以下步骤都在 docker 环境中运行。 ## 训练示例 -以 [ResNet50_vd](https://github.com/PaddlePaddle/PaddleClas/blob/release/2.5/docs/zh_CN/quick_start/quick_start_classification_new_user.md) 模型为例,介绍如何使用昆仑 XPU 进行训练。 +以 [ResNet50_vd](https://github.com/PaddlePaddle/PaddleClas/blob/release/2.5/docs/zh_CN/quick_start/quick_start_classification_new_user.md) 模型为例,介绍如何使用昆仑芯 XPU 进行训练。 ### 一、下载套件代码 @@ -65,7 +65,7 @@ python tools/eval.py -c ./ppcls/configs/quick_start/ResNet50_vd.yaml \ ## 推理示例 -以 [ResNet50](https://paddle-inference-dist.bj.bcebos.com/Paddle-Inference-Demo/resnet50.tgz) 模型为例,介绍如何使用昆仑 XPU 进行推理。 +以 [ResNet50](https://paddle-inference-dist.bj.bcebos.com/Paddle-Inference-Demo/resnet50.tgz) 模型为例,介绍如何使用昆仑芯 XPU 进行推理。 ### 一、下载推理程序 diff --git a/docs/guides/hardware_support/xpu/index_cn.rst b/docs/guides/hardware_support/xpu/index_cn.rst index e0222bcaaed..c441f996c2c 100644 --- a/docs/guides/hardware_support/xpu/index_cn.rst +++ b/docs/guides/hardware_support/xpu/index_cn.rst @@ -1,16 +1,16 @@ .. _cn_xpu_information: #################### -昆仑 XPU 芯片 +昆仑芯 XPU 芯片 #################### -百度昆仑 AI 计算处理器(Baidu KUNLUN AI Computing Processor)是百度集十年 AI 产业技术实践于 2019 年推出的全功能 AI 芯片。基于自主研发的先进 XPU 架构,为云端和边缘端的人工智能业务而设计。 百度昆仑与飞桨及其他国产软硬件强强组合,打造一个全面领先的国产化 AI 技术生态,部署和应用于诸多 “人工智能+“的行业领域,包括智能云和高性能计算,智慧制造、智慧城市和安防等。更多昆仑 XPU 芯片详情及技术指标请 `点击这里 `_ 。 +百度昆仑芯 AI 计算处理器(Baidu KUNLUN AI Computing Processor)是百度集十年 AI 产业技术实践于 2019 年推出的全功能 AI 芯片。基于自主研发的先进 XPU 架构,为云端和边缘端的人工智能业务而设计。 百度昆仑芯与飞桨及其他国产软硬件强强组合,打造一个全面领先的国产化 AI 技术生态,部署和应用于诸多 “人工智能+“的行业领域,包括智能云和高性能计算,智慧制造、智慧城市和安防等。更多昆仑芯 XPU 芯片详情及技术指标请 `点击这里 `_ 。 -飞桨框架支持基于昆仑 XPU 芯片的训练和推理,请参考以下内容快速体验: +飞桨框架支持基于昆仑芯 XPU 芯片的训练和推理,请参考以下内容快速体验: -- `昆仑 XPU 安装说明 <./install_cn.html>`_ : 昆仑 XPU 安装说明 -- `昆仑 XPU 运行示例 <./example_cn.html>`_ : 昆仑 XPU 运行示例 -- `昆仑 XPU 支持模型 <./support_cn.html>`_ : 昆仑 XPU 支持模型 +- `昆仑芯 XPU 安装说明 <./install_cn.html>`_ : 昆仑芯 XPU 安装说明 +- `昆仑芯 XPU 运行示例 <./example_cn.html>`_ : 昆仑芯 XPU 运行示例 +- `昆仑芯 XPU 支持模型 <./support_cn.html>`_ : 昆仑芯 XPU 支持模型 .. toctree:: :hidden: diff --git a/docs/guides/hardware_support/xpu/install_cn.md b/docs/guides/hardware_support/xpu/install_cn.md index 8973ea4ab61..e5377983103 100644 --- a/docs/guides/hardware_support/xpu/install_cn.md +++ b/docs/guides/hardware_support/xpu/install_cn.md @@ -1,20 +1,20 @@ -# 昆仑 XPU 安装说明 +# 昆仑芯 XPU 安装说明 飞桨框架 XPU 版支持昆仑芯 XPU 的训练和推理,提供两种安装方式: 1. 通过飞桨官网发布的 wheel 包安装 2. 通过源代码编译安装得到 wheel 包 -## 昆仑 XPU 系统要求 +## 昆仑芯 XPU 系统要求 | 要求类型 | 要求内容 | | --------- | -------- | -| 芯片型号 | 昆仑芯 2 代,包括 R200、R300、R200-8F、R200-8FS、RG800 | +| 芯片型号 | 昆仑芯 2 代,包括 R200、R300、R200-8F、RG800 | | 操作系统 | Linux 操作系统,包括 Ubuntu、CentOS、KylinV10 | ## 运行环境准备 -推荐使用飞桨官方发布的昆仑 XPU 开发镜像,该镜像预装有昆仑基础运行环境库(XRE)。 +推荐使用飞桨官方发布的昆仑芯 XPU 开发镜像,该镜像预装有昆仑芯基础运行环境库(XRE)。 ```bash # 拉取镜像 @@ -26,7 +26,7 @@ docker run -it --name paddle-xpu-dev -v $(pwd):/work \ --cap-add=SYS_PTRACE --security-opt seccomp=unconfined \ registry.baidubce.com/device/paddle-xpu:ubuntu20-x86_64-gcc84-py310 /bin/bash -# 检查容器内是否可以正常识别昆仑 XPU 设备 +# 检查容器内是否可以正常识别昆仑芯 XPU 设备 xpu_smi # 预期得到输出如下 @@ -55,7 +55,7 @@ Driver Version: 4.0 ## 安装飞桨框架 -**注意**:当前飞桨 develop 分支仅支持 X86 架构,如需昆仑 XPU 的 ARM 架构支持,请切换到 [release/2.6](https://www.paddlepaddle.org.cn/documentation/docs/zh/2.6/guides/hardware_support/xpu/install_cn.html) 分支。 +**注意**:当前飞桨 develop 分支仅支持 X86 架构,如需昆仑芯 XPU 的 ARM 架构支持,请切换到 [release/2.6](https://www.paddlepaddle.org.cn/documentation/docs/zh/2.6/guides/hardware_support/xpu/install_cn.html) 分支。 ### 安装方式一:wheel 包安装 diff --git a/docs/guides/hardware_support/xpu/support_cn.md b/docs/guides/hardware_support/xpu/support_cn.md index 7df6e0f7f31..24eaf41876c 100644 --- a/docs/guides/hardware_support/xpu/support_cn.md +++ b/docs/guides/hardware_support/xpu/support_cn.md @@ -1,4 +1,4 @@ -# 昆仑 XPU 支持模型 +# 昆仑芯 XPU 支持模型 飞桨框架在昆仑芯 XPU 上经验证的模型的支持情况如下: diff --git a/docs/guides/infer/inference/inference_cn.md b/docs/guides/infer/inference/inference_cn.md index d1966b100c3..c7da0e5f226 100644 --- a/docs/guides/infer/inference/inference_cn.md +++ b/docs/guides/infer/inference/inference_cn.md @@ -56,7 +56,7 @@ PaddleSlim 是飞桨深度学习模型压缩工具,Paddle Inference 可联动 ### 主流软硬件环境兼容适配 -支持服务器端 X86 CPU、NVIDIA GPU 芯片,兼容 Linux/Mac/Windows 系统,同时对飞腾、鲲鹏、曙光、昆仑等国产 CPU/NPU 进行适配。。支持所有飞桨训练产出的模型,完全做到即训即用。 +支持服务器端 X86 CPU、NVIDIA GPU 芯片,兼容 Linux/Mac/Windows 系统,同时对飞腾、鲲鹏、曙光、昆仑芯等国产 CPU/NPU 进行适配。。支持所有飞桨训练产出的模型,完全做到即训即用。 ### 主流、国产操作系统全适配 diff --git a/docs/hardware_support/hardware_info_cn.md b/docs/hardware_support/hardware_info_cn.md index e0413800a9c..87caed5eeb6 100644 --- a/docs/hardware_support/hardware_info_cn.md +++ b/docs/hardware_support/hardware_info_cn.md @@ -49,7 +49,7 @@ | AI 加速芯片 | | 瑞芯微 | RK18xx 系列 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/rockchip_npu.html#id5) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/rockchip_npu.html#id1) | | AI 加速芯片 | | 联发科 | NeuroPilot APU | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/mediatek_apu.html#id1) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/mediatek_apu.html#id1) | | AI 加速芯片 | | Imagination | PowerVR 2NX | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/huawei_kirin_npu.html#id5) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/huawei_kirin_npu.html#id1) | -| AI 加速芯片 | | 百度 | 昆仑 R200、R300 等 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id4) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id1) | +| AI 加速芯片 | | 百度 | 昆仑芯 R200、R300 等 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id4) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/baidu_xpu.html#id1) | | AI 加速芯片 | | 寒武纪 | 思元系列芯片 | | [源码编译](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/cambricon_mlu.html#cankaoshiliyanshi) | | [支持模型](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/cambricon_mlu.html#paddle) | | AI 加速芯片 | | 比特大陆 | 算丰 BM16 系列芯片 | | [源码编译](https://paddlelite.paddlepaddle.org.cn/demo_guides/bitmain.html#id5) | | [支持模型](https://paddlelite.paddlepaddle.org.cn/demo_guides/bitmain.html#id1) | | AI 加速芯片 | | 紫光展锐 | T820 | | [源码编译](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/android_nnapi.html#android-nnapi-paddle-lite) | | [支持模型](https://www.paddlepaddle.org.cn/lite/develop/demo_guides/android_nnapi.html#paddle) | diff --git a/docs/hardware_support/index_cn.rst b/docs/hardware_support/index_cn.rst index cee30ce1216..1ab20ff6446 100644 --- a/docs/hardware_support/index_cn.rst +++ b/docs/hardware_support/index_cn.rst @@ -7,7 +7,7 @@ 你可以通过以下内容,了解飞桨框架硬件支持相关的内容: - `飞桨硬件支持 <./hardware_info_cn.html>`_ : 说明飞桨产品支持的硬件。 -- `昆仑 XPU 芯片运行飞桨 <./xpu/index_cn.html>`_ : 介绍如何在昆仑 XPU 芯片环境上安装和使用飞桨。 +- `昆仑芯 XPU 芯片运行飞桨 <./xpu/index_cn.html>`_ : 介绍如何在昆仑芯 XPU 芯片环境上安装和使用飞桨。 - `海光 DCU 芯片运行飞桨 <./dcu/index_cn.html>`_ : 介绍如何在海光 DCU 芯片环境上安装和使用飞桨。 - `昇腾 NPU 芯片运行飞桨 <./npu/index_cn.html>`_ : 介绍如何在昇腾 NPU 芯片环境上安装和使用飞桨。 - `寒武纪 MLU 芯片运行飞桨 <./mlu/index_cn.html>`_ : 介绍如何在寒武纪 MLU 芯片环境上安装和使用飞桨。 diff --git a/docs/hardware_support/xpu/index_cn.rst b/docs/hardware_support/xpu/index_cn.rst index 2eaa9bc9535..aa6ac11000c 100644 --- a/docs/hardware_support/xpu/index_cn.rst +++ b/docs/hardware_support/xpu/index_cn.rst @@ -1,16 +1,16 @@ .. _cn_xpu_information: #################### -昆仑 XPU 芯片 +昆仑芯 XPU 芯片 #################### -百度昆仑 AI 计算处理器(Baidu KUNLUN AI Computing Processor)是百度集十年 AI 产业技术实践于 2019 年推出的全功能 AI 芯片。基于自主研发的先进 XPU 架构,为云端和边缘端的人工智能业务而设计。 百度昆仑与飞桨及其他国产软硬件强强组合,打造一个全面领先的国产化 AI 技术生态,部署和应用于诸多 “人工智能+“的行业领域,包括智能云和高性能计算,智慧制造、智慧城市和安防等。更多昆仑 XPU 芯片详情及技术指标请 `点击这里 `_ 。 +百度昆仑芯 AI 计算处理器(Baidu KUNLUN AI Computing Processor)是百度集十年 AI 产业技术实践于 2019 年推出的全功能 AI 芯片。基于自主研发的先进 XPU 架构,为云端和边缘端的人工智能业务而设计。 百度昆仑芯与飞桨及其他国产软硬件强强组合,打造一个全面领先的国产化 AI 技术生态,部署和应用于诸多 “人工智能+“的行业领域,包括智能云和高性能计算,智慧制造、智慧城市和安防等。更多昆仑芯 XPU 芯片详情及技术指标请 `点击这里 `_ 。 -飞桨框架支持基于昆仑 XPU 芯片的训练和推理,请参考以下内容快速体验: +飞桨框架支持基于昆仑芯 XPU 芯片的训练和推理,请参考以下内容快速体验: -- `昆仑 XPU 基于框架的使用指南 <./paddle_tutorial_cn.html>`_ : 昆仑 XPU 基于框架的使用指南 -- `昆仑 XPU 基于套件的使用指南 <./suite_tutorial_cn.html>`_ : 昆仑 XPU 基于套件的使用指南 -- `昆仑 XPU 支持模型 <./support_cn.html>`_ : 昆仑 XPU 支持模型 +- `昆仑芯 XPU 基于框架的使用指南 <./paddle_tutorial_cn.html>`_ : 昆仑芯 XPU 基于框架的使用指南 +- `昆仑芯 XPU 基于套件的使用指南 <./suite_tutorial_cn.html>`_ : 昆仑芯 XPU 基于套件的使用指南 +- `昆仑芯 XPU 支持模型 <./support_cn.html>`_ : 昆仑芯 XPU 支持模型 .. toctree:: :hidden: diff --git a/docs/hardware_support/xpu/paddle_tutorial_cn.md b/docs/hardware_support/xpu/paddle_tutorial_cn.md index e23ef7c2288..dddea1966ee 100644 --- a/docs/hardware_support/xpu/paddle_tutorial_cn.md +++ b/docs/hardware_support/xpu/paddle_tutorial_cn.md @@ -1,10 +1,10 @@ -# 昆仑 XPU 基于框架的使用指南 +# 昆仑芯 XPU 基于框架的使用指南 ## 一、环境准备 ### 环境说明 -* 本教程介绍如何基于昆仑 XPU 进行 ResNet50 的训练,总共需要 1 卡进行训练 +* 本教程介绍如何基于昆仑芯 XPU 进行 ResNet50 的训练,总共需要 1 卡进行训练 * 考虑到环境差异性,我们推荐使用教程提供的标准镜像完成环境准备: @@ -24,7 +24,7 @@ python -m pip install paddlepaddle-xpu -i https://www.paddlepaddle.org.cn/packag ## 二、运行示例 -飞桨框架集成了经典的视觉模型用于帮助用户快速上手,我们将基于 ResNet50 结构,在 Cifar10 数据集上进行一次快速训练,用于帮助您了解如何基于昆仑 XPU 进行训练(和 GPU 训练代码相比,差异点仅为 `paddle.set_device("xpu")`) +飞桨框架集成了经典的视觉模型用于帮助用户快速上手,我们将基于 ResNet50 结构,在 Cifar10 数据集上进行一次快速训练,用于帮助您了解如何基于昆仑芯 XPU 进行训练(和 GPU 训练代码相比,差异点仅为 `paddle.set_device("xpu")`) 注意: diff --git a/docs/hardware_support/xpu/suite_tutorial_cn.md b/docs/hardware_support/xpu/suite_tutorial_cn.md index 14f423c31f9..a21f76d99e0 100644 --- a/docs/hardware_support/xpu/suite_tutorial_cn.md +++ b/docs/hardware_support/xpu/suite_tutorial_cn.md @@ -1,10 +1,10 @@ -# 昆仑 XPU 基于套件的使用指南 +# 昆仑芯 XPU 基于套件的使用指南 ## 环境准备 ### 环境说明 -* 本教程介绍如何基于昆仑 XPU 进行 ResNet50 的训练,总共需要 4 卡进行训练 +* 本教程介绍如何基于昆仑芯 XPU 进行 ResNet50 的训练,总共需要 4 卡进行训练 * 考虑到环境差异性,我们推荐使用教程提供的标准镜像完成环境准备: diff --git a/docs/install/install_xpu_cn.md b/docs/install/install_xpu_cn.md index 612d61e8c9b..4cfde1fa1be 100644 --- a/docs/install/install_xpu_cn.md +++ b/docs/install/install_xpu_cn.md @@ -1,10 +1,10 @@ -# 昆仑 XPU 芯片 +# 昆仑芯 XPU 芯片 -百度昆仑 AI 计算处理器(Baidu KUNLUN AI Computing Processor)是百度集十年 AI 产业技术实践于 2019 年推出的全功能 AI 芯片。基于自主研发的先进 XPU 架构,为云端和边缘端的人工智能业务而设计。 百度昆仑与飞桨及其他国产软硬件强强组合,打造一个全面领先的国产化 AI 技术生态,部署和应用于诸多 “人工智能+“的行业领域,包括智能云和高性能计算,智慧制造、智慧城市和安防等。更多昆仑 XPU 芯片详情及技术指标请 [点击这里](https://www.kunlunxin.com/) 。 +百度昆仑芯 AI 计算处理器(Baidu KUNLUN AI Computing Processor)是百度集十年 AI 产业技术实践于 2019 年推出的全功能 AI 芯片。基于自主研发的先进 XPU 架构,为云端和边缘端的人工智能业务而设计。 百度昆仑芯与飞桨及其他国产软硬件强强组合,打造一个全面领先的国产化 AI 技术生态,部署和应用于诸多 “人工智能+“的行业领域,包括智能云和高性能计算,智慧制造、智慧城市和安防等。更多昆仑芯 XPU 芯片详情及技术指标请 [点击这里](https://www.kunlunxin.com/) 。 -飞桨框架支持基于昆仑 XPU 芯片的训练和推理,请参考以下内容快速体验: +飞桨框架支持基于昆仑芯 XPU 芯片的训练和推理,请参考以下内容快速体验: -- [昆仑 XPU 安装说明](../guides/hardware_support/xpu/install_cn.html) -- [昆仑 XPU 运行示例](../guides/hardware_support/xpu/example_cn.html) -- [昆仑 XPU 支持模型](../guides/hardware_support/xpu/support_cn.html) +- [昆仑芯 XPU 安装说明](../guides/hardware_support/xpu/install_cn.html) +- [昆仑芯 XPU 运行示例](../guides/hardware_support/xpu/example_cn.html) +- [昆仑芯 XPU 支持模型](../guides/hardware_support/xpu/support_cn.html) diff --git a/docs/release_note_cn.md b/docs/release_note_cn.md index 5abf718f880..6665039e57a 100644 --- a/docs/release_note_cn.md +++ b/docs/release_note_cn.md @@ -357,7 +357,7 @@ PIR(Paddle Intermediate Representation)对底层的核心概念如 Operation - 修复 CustomDevice 中设备管理的一些问题,包括设备异常 ([#56556](https://github.com/PaddlePaddle/Paddle/pull/56556),[#58639](https://github.com/PaddlePaddle/Paddle/pull/58639),[#55173](https://github.com/PaddlePaddle/Paddle/pull/55173)), 异常事件([#56745](https://github.com/PaddlePaddle/Paddle/pull/56745),[#58059](https://github.com/PaddlePaddle/Paddle/pull/58059)), 显存异常([#56977](https://github.com/PaddlePaddle/Paddle/pull/56977),[#59247](https://github.com/PaddlePaddle/Paddle/pull/59247),[#54606](https://github.com/PaddlePaddle/Paddle/pull/54606)), 设备初始化 ([#57099](https://github.com/PaddlePaddle/Paddle/pull/57099),[#57994](https://github.com/PaddlePaddle/Paddle/pull/57994)),设备释放([#54932](https://github.com/PaddlePaddle/Paddle/pull/54932),[#55351](https://github.com/PaddlePaddle/Paddle/pull/55351),[#55783](https://github.com/PaddlePaddle/Paddle/pull/55783)),和设备资源池等。([#55229](https://github.com/PaddlePaddle/Paddle/pull/55229),[#56580](https://github.com/PaddlePaddle/Paddle/pull/56580)) - 修复 CustomDevice 编译相关问题。[#56760](https://github.com/PaddlePaddle/Paddle/pull/56760),[#56766](https://github.com/PaddlePaddle/Paddle/pull/56766) -### 昆仑 XPU +### 昆仑芯 XPU #### 新功能 @@ -366,7 +366,7 @@ PIR(Paddle Intermediate Representation)对底层的核心概念如 Operation - 新增 XPU 融合算子包括 fast_where。[#55628](https://github.com/PaddlePaddle/Paddle/pull/55628) - 新增 XPU Plugin 功能支持,方便用户可通过 XTDK 编程方式开发 XPU 自定义算子。[#55101](https://github.com/PaddlePaddle/Paddle/pull/55101),[#59326](https://github.com/PaddlePaddle/Paddle/pull/59326) - 新增 XPU 对 AutoGrowthAllocator 的支持。[#54121](https://github.com/PaddlePaddle/Paddle/pull/54121) -- 新增昆仑 3 的算子支持列表。[#57683](https://github.com/PaddlePaddle/Paddle/pull/57683) +- 新增昆仑芯 3 的算子支持列表。[#57683](https://github.com/PaddlePaddle/Paddle/pull/57683) #### 功能优化 @@ -725,7 +725,7 @@ Azure-Tang, zhaoyinglia, From00, JZ-LIANG, xysheng-baidu, SylarTiaNII, kuizhiqin - CPU 的 OneDNN 推理支持 suqeeze2 + transpose2 融合,[#47592](https://github.com/PaddlePaddle/Paddle/pull/47592) ### XPU 推理提升和性能优化 -- 新增 ExpRunWithRuntimeConfig 接口与 XpuRuntimeConfig 允许推理期间设置外部流、L3 cache 等参数;GetExecStream 接口支持获得昆仑外部流对象;输入、输出支持昆仑设备内存减少 D2H 和 H2D 开销,[#53334](https://github.com/PaddlePaddle/Paddle/pull/53334)、 [#52466](https://github.com/PaddlePaddle/Paddle/pull/52466)、 [#53240](https://github.com/PaddlePaddle/Paddle/pull/53240) +- 新增 ExpRunWithRuntimeConfig 接口与 XpuRuntimeConfig 允许推理期间设置外部流、L3 cache 等参数;GetExecStream 接口支持获得昆仑芯外部流对象;输入、输出支持昆仑芯设备内存减少 D2H 和 H2D 开销,[#53334](https://github.com/PaddlePaddle/Paddle/pull/53334)、 [#52466](https://github.com/PaddlePaddle/Paddle/pull/52466)、 [#53240](https://github.com/PaddlePaddle/Paddle/pull/53240) - 新增 multi-encoder, fused_multi_transformer 算子和融合 pass,提升 ERNIE 和 Transformer 类模型性能,[#50570](https://github.com/PaddlePaddle/Paddle/pull/50570)、[#51346](https://github.com/PaddlePaddle/Paddle/pull/51346)、 [#50499](https://github.com/PaddlePaddle/Paddle/pull/50499)、[#53982](https://github.com/PaddlePaddle/Paddle/pull/53982)、[#50759](https://github.com/PaddlePaddle/Paddle/pull/50759)、[#51571](https://github.com/PaddlePaddle/Paddle/pull/51571)、 [#53144](https://github.com/PaddlePaddle/Paddle/pull/53144)、[#53306](https://github.com/PaddlePaddle/Paddle/pull/53306) - 优化 BeamSearch 性能,当 beam_size=1 时对 write_read_array, gather 等细粒度算子进行变换、去除和融合提升模型性能,[#53130](https://github.com/PaddlePaddle/Paddle/pull/53130) - 多个相同输入的 stack 算子变换为支持 broadcast 的 unsqueeze 算子,unsquee/squeeze 支持 inplace 计算, [#52099](https://github.com/PaddlePaddle/Paddle/pull/52099) @@ -2354,7 +2354,7 @@ AssertionError: elu_ only support alpha >= 0, please use elu instead. - 统一参数服务器下,新增评估指标模块,支持 AUC/WuAUC/MaskAuc 等评估指标计算及可自定义扩展。([#38789](https://github.com/PaddlePaddle/Paddle/pull/38789)) - - 支持在昆仑 2 芯片上的 XPU 参数服务器训练。([#41917](https://github.com/PaddlePaddle/Paddle/pull/41917), [#42266](https://github.com/PaddlePaddle/Paddle/pull/42266), [#41916](https://github.com/PaddlePaddle/Paddle/pull/41916)) + - 支持在昆仑芯 2 芯片上的 XPU 参数服务器训练。([#41917](https://github.com/PaddlePaddle/Paddle/pull/41917), [#42266](https://github.com/PaddlePaddle/Paddle/pull/42266), [#41916](https://github.com/PaddlePaddle/Paddle/pull/41916)) #### Profiler @@ -2644,9 +2644,9 @@ AssertionError: elu_ only support alpha >= 0, please use elu instead. - 新增对 unstack 和 unique op 元素个数为 0 的 Tensor 增加检查。([#36021](https://github.com/PaddlePaddle/Paddle/pull/36021)) -- 新增支持昆仑 2 的多层、双向 LSTM 功能,完善 RNN 前反向 op,支持时序类模型训练使用。([#](https://github.com/PaddlePaddle/Paddle/pull/41781)[42076](https://github.com/PaddlePaddle/Paddle/pull/42076)) +- 新增支持昆仑芯 2 的多层、双向 LSTM 功能,完善 RNN 前反向 op,支持时序类模型训练使用。([#](https://github.com/PaddlePaddle/Paddle/pull/41781)[42076](https://github.com/PaddlePaddle/Paddle/pull/42076)) -- 新增支持昆仑 2 的 bce_loss 前反向 op。([#41610](https://github.com/PaddlePaddle/Paddle/pull/41610)) +- 新增支持昆昆仑芯 2 的 bce_loss 前反向 op。([#41610](https://github.com/PaddlePaddle/Paddle/pull/41610)) - 添加 `paddle.linalg.det` 的反向实现。([#36013](https://github.com/PaddlePaddle/Paddle/pull/36013))