From 1ec3a9facec527bc0bfccff610d3198b0f563c78 Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Wed, 3 Jul 2019 11:52:51 +0800 Subject: [PATCH 1/8] Add symbol link of language_model. --- PaddingRNN/lstm_paddle/language_model | 1 + 1 file changed, 1 insertion(+) create mode 120000 PaddingRNN/lstm_paddle/language_model diff --git a/PaddingRNN/lstm_paddle/language_model b/PaddingRNN/lstm_paddle/language_model new file mode 120000 index 0000000000..1cd4a6726b --- /dev/null +++ b/PaddingRNN/lstm_paddle/language_model @@ -0,0 +1 @@ +../../models/PaddleNLP/language_model/ \ No newline at end of file From 52eb78b6dd4dcd07923efea6c509713a6385325e Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Wed, 3 Jul 2019 12:11:12 +0800 Subject: [PATCH 2/8] Add readme for benchmark repo. --- README.md | 3 +++ 1 file changed, 3 insertions(+) create mode 100644 README.md diff --git a/README.md b/README.md new file mode 100644 index 0000000000..d0c7fffc1f --- /dev/null +++ b/README.md @@ -0,0 +1,3 @@ +# PaddlePaddle Benchmark + +[PaddingRNN](https://github.com/PaddlePaddle/models/tree/benchmark/PaddleNLP/language_model) From ecb262193d7235a9512b7e3a7d711c7659b5a4b4 Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Fri, 5 Jul 2019 18:10:07 +0800 Subject: [PATCH 3/8] Update benchmark results of v1.5.0 in README. --- README.md | 439 +++++++++++++++++++++++++++++++++++++++++++++++++++++- 1 file changed, 438 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index d0c7fffc1f..632ea10998 100644 --- a/README.md +++ b/README.md @@ -1,3 +1,440 @@ # PaddlePaddle Benchmark -[PaddingRNN](https://github.com/PaddlePaddle/models/tree/benchmark/PaddleNLP/language_model) +我们对PaddlePaddle的最新版本[v1.5.0](https://github.com/PaddlePaddle/Paddle/tree/v1.5.0),在训练性能和显存占用方面进行了基准测试。 + +## 目录 +* [测试环境](#测试环境) +* [智能视觉(PaddleCV)](#PaddleCV) + * [SE-ResNeXt50](#SE-ResNeXt50) + * [Mask-RCNN](#Mask-RCNN) + * [YOLOv3](#YOLOv3) + * [DeepLab V3+](#DeepLab V3+) + * [CycleGAN](#CycleGAN) +* [智能文本处理(PaddleNLP)](#PaddleNLP) + * [PaddingRNN](#PaddingRNN) + * [BERT](#BERT) + * [Transformer](#Transformer) +* [强化学习(PARL)](#PARL) + * [DDPG](#DDPG) + +## 测试环境 +- 测试对象 + - 本次测试[PaddlePaddle v1.5.0](https://github.com/PaddlePaddle/Paddle/tree/v1.5.0),具体commit是:`401c03fc20478f5cc067440422fc3a7b306d0e32` + - 基准测试程序[benchmark](https://github.com/PaddlePaddle/benchmark),具体commit是:`3c34ed6b166f6b77e759b4c54e8854652ad3d776` + + +- Docker镜像 + - Paddle编译镜像 + - CUDA 9.0,`paddlepaddle/paddle_manylinux_devel:cuda9.0_cudnn7` + - CUDA 10.0,`paddlepaddle/paddle_manylinux_devel:cuda10.0_cudnn7` + - Paddle测试镜像 + - CUDA 9.0,`paddlepaddle/paddle:latest-gpu-cuda9.0-cudnn7` + - CUDA 10.0,`paddlepaddle/paddle:latest-gpu-cuda10.0-cudnn7` + - TensorFlow测试镜像 + - CUDA 9.0,`tensorflow/tensorflow:1.12.0-gpu` + - CUDA 10.0,`tensorflow/tensorflow:1.14.0-gpu` + - PyTorch + - CUDA 9.0, + - CUDA 10.0, + +- GPU服务器参数 + - GPU型号:Nvidia Tesla V100-SXM2,显存16 GB + - CPU型号:Intel(R) Xeon(R) Gold 6148 CPU @ 2.40GHz,38核 + - Driver Version: 418.39 + - CUDA Version:9.0.176,10.0.130 + - NCCL Version:2.4.2 + - cuDNN Version:7.4.2.24,7.5.0.56 + +- CPU服务器参数 + - CPU型号:Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz,24核 + - 指令集:AVX2 + +## PaddleCV + +| 方向 | 模型 | Paddle | TensorFlow | PyTorch | MXNet | 数据集 | batch_size(单卡) | +|---|---|---|---|---|---|---|---| +| 图像分类 | SE-ResNeXt50 | [PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | - | [SENet-PyTorch](https://github.com/miraclewkf/SENet-PyTorch) | - | ILSVRC2012 | 32 | +| 目标检测 | Mask-RCNN | [PaddleCV/rcnn](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/rcnn) | - | [maskrcnn-benchmark](https://github.com/facebookresearch/maskrcnn-benchmark) | - | COCO17 | 1 | +| 目标检测 | YOLOv3 | [Paddle/yolov3](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/yolov3) | - | - | [gluon-cv](https://github.com/dmlc/gluon-cv/tree/master/scripts/detection/yolo) | COCO17 | 8 | +| 图像分割 | DeepLab V3+ | [PaddleCV/deeplabv3+](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/deeplabv3%2B) | [tensorflow/models](https://github.com/tensorflow/models/tree/master/research/deeplab) | - | - | cityscape | 2 | +| 图像生成 | CycleGAN | [PaddleCV/PaddleGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN/cycle_gan) | [CycleGAN](https://github.com/hardikbansal/CycleGAN) | - | - | horse2zebra | 1 | + +### SE-ResNeXt50 +SE-ResNeXt50模型单卡训练速度与PyTorch**持平**,八卡训练速度和显存占用都**优于**PyTorch。 + +- 准备工作 +- 训练速度 + +单位:images/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 1 GPU | 168.334 | 163.130 | +| 8 GPUs (单进程) | 843.348 | 595.274 | +| 8 GPUs (多进程) | - | - | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 1 GPU | 168.478 | 163.294 | +| 8 GPUs (单进程) | 836.357 | 573.732 | +| 8 GPUs (多进程) | - | - | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 单卡显存占用 | 5515 MiB | 5677 MiB | +| 单卡最大batch_size | 112 | 112 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 单卡显存占用 | 5535 MiB | 5695 MiB | +| 单卡最大batch_size | 112 | 112 | + +### Mask-RCNN +Mask-RCNN模型训练速度和显存占用都**优于**PyTorch。 + +- 准备工作 +- 训练速度 + +单位:images/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 1 GPU | 3.811 | 3.240 | +| 8 GPUs (单进程) | 18.707 | - | +| 8 GPUs (多进程) | 23.014 | 21.864 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 1 GPU | 3.780 | - | +| 8 GPUs (单进程) | 18.505 | - | +| 8 GPUs (多进程) | 23.199 | - | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 单卡显存占用 | 3871 MiB | 4548 MiB | +| 单卡最大batch_size | 5 | 5 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 单卡显存占用 | 3907 MiB | - | +| 单卡最大batch_size | 5 | - | + +### YOLOv3 +YOLOv3模型训练速度和显存占用都**优于**MXNet。 + +- 准备工作 +- 训练速度 + +单位:images/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | MXNet | +|---|---|---| +| 1 GPU | 29.901 | 18.578 | +| 8 GPUs (单进程) | 58.175 | 35.574 | +| 8 GPUs (多进程) | 99.530 | - | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | MXNet | +|---|---|---| +| 1 GPU | 30.591 | 17.001 | +| 8 GPUs (单进程) | 57.997 | 33.755 | +| 8 GPUs (多进程) | 104.553 | - | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 单卡显存占用 | 10583 MiB | 14304 MiB | +| 单卡最大batch_size | 14 | 14 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | +|---|---|---| +| 单卡显存占用 | 10599 MiB | 9842 MiB | +| 单卡最大batch_size | 14 | 14 | + +### DeepLab V3+ +Deep Lab V3+模型训练速度和显存占用都**优于**TensorFlow。 + +- 准备工作 +- 训练速度 + +单位:images/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 13.695 | 6.4 | +| 8 GPUs (单进程) | 59.721 | 16.508 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 14.261 | 6.309 | +| 8 GPUs (单进程) | 58.024 | 16.427 | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 单卡显存占用 | 5163 MiB | 8934 MiB | +| 单卡最大batch_size | 9 | 7 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 5167 MiB | 8927 MiB | +| 单卡最大batch_size | 9 | 7 | + +### CycleGAN +Cycle-GAN模型不支持多卡训练,其单卡训练速度和显存占用都**优于**TensorFlow。 + +- 准备工作 +- 训练速度 + +单位:images/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 7.513 | 6.452 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 7.591 | 6.823 | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 单卡显存占用 | 2479 MiB | 5094 MiB | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 2499 MiB | 5089 MiB | + +## PaddleNLP + +| 方向 | 模型 | Paddle | TensorFlow | PyTorch | 数据集 | batch_size(单卡) | +|---|---|---|---|---|---|---| +| 语言模型 | PaddingRNN | [PaddleNLP/language_model](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/language_model) | [benchmark/PaddingRNN/lstm_tf](https://github.com/PaddlePaddle/benchmark/tree/master/PaddingRNN/lstm_tf) | - | PTB文本数据集 | 20 | +| 语义表示 | BERT | [LARK](https://github.com/PaddlePaddle/LARK) | [google-research/bert](https://github.com/google-research/bert) | - | XNLI | 32 | +| 机器翻译 | Transformer | [PaddleNLP/neural_machine_translation/transformer](https://github.com/PaddlePaddle/models/tree/develop/PaddleNLP/neural_machine_translation/transformer) | [tensor2tensor](https://github.com/tensorflow/tensor2tensor) | - | En-de | 4096 | + +### PaddingRNN +TensorFlow的PaddingRNN开源模型多卡训练失败,故只测试单卡训练的情况。 +PaddleRNN模型在static模式下,单卡训练速度和显存占用都**差于**TensorFlow。 + +- 准备工作 +- 训练速度 + +单位:steps/s + +1. static模式,small模型,**CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 61.208 | 73.991 | + +2. static模式,small模型,**CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 63.400 | 72.406 | + +3. static模式,large模型,**CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 17.479 | 18.529 | + +4. static模式,large模型,**CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 17.107 | 17.914 | + +- 显存占用 + +1. static模式,small模型,**CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 单卡显存占用 | 660 MiB | 660 MiB | + +2. static模式,small模型,**CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 657 MiB | 647 MiB | + +3. static模式,large模型,**CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 单卡显存占用 | 6089 MiB | 5858 MiB | + +4. static模式,large模型,**CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 6083 MiB | 8711 MiB | + +### BERT +TensorFlow的BERT开源模型暂无多卡实现。 +BERT模型单卡训练速度和显存占用都优于TensorFlow。 + +- 准备工作 +- 训练速度 + +单位:steps/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 4.044 | 3.420 | +| 8 GPUs (单进程) | 1.803 | - | +| 8 GPUs (多进程) | 3.114 | - | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 4.003 | - | +| 8 GPUs (单进程) | 1.817 | - | +| 8 GPUs (多进程) | 3.089 | - | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFl 1.12.0 | +|---|---|---| +| 单卡显存占用 | 6551 MiB | 15430 MiB | +| 单卡最大batch_size | 9984 | 9216 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 6545 MiB | - | +| 单卡最大batch_size | 9984 | - | + +### Transformer +Transformer模型单卡训练速度与TensorFlow**持平**;多卡训练速度和显存占用**优于**TensorFlow。 + +- 准备工作 +- 训练速度 + +单位:steps/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 4.865 | 4.750 | +| 8 GPUs (单进程) | 4.227 | 2.302 | +| 8 GPUs (多进程) | 4.445 | - | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 4.883 | 4.721 | +| 8 GPUs (单进程) | 4.355 | 2.520 | +| 8 GPUs (多进程) | 4.460 | - | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFl 1.12.0 | +|---|---|---| +| 单卡显存占用 | 7137 MiB | 8948 MiB | +| 单卡最大batch_size | 12000 | 11144 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 7147 MiB | 8711 | +| 单卡最大batch_size | 12000 | 11144 | + +## PARL + +| 方向 | 模型 | Paddle | TensorFlow | PyTorch | 数据集 | batch_size(单卡) | +|---|---|---|---|---|---|---| +| 强化学习 | DDPG Deep Explore | [benchmark/DDPG_Deep_Explore/Fluid_version](https://github.com/PaddlePaddle/benchmark/tree/master/DDPG_Deep_Explore/Fluid_version) | [benchmark/DDPG_Deep_Explore/TF_version](https://github.com/PaddlePaddle/benchmark/tree/master/DDPG_Deep_Explore/TF_version) | - | 测试数据 | 100 | + +### DDPG +DDPG模型不支持多卡训练,其训练速度与竞品持平,显存占用**优于**TensorFlow。 + +- 准备工作 +- 训练速度 + +单位:epoch/s + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 1 GPU | 1.615 | 1.606 | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 1 GPU | 1.578 | - | + +- 显存占用 + +1. **CUDA 9.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | +|---|---|---| +| 单卡显存占用 | 563 MiB | 630 MiB | + +2. **CUDA 10.0**测试结果 + +| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | +|---|---|---| +| 单卡显存占用 | 3907 MiB | - | \ No newline at end of file From 8930df2e9ded2c6ca349f545691b429c51480936 Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Mon, 8 Jul 2019 11:09:03 +0800 Subject: [PATCH 4/8] Use html to rewrite tables. --- README.md | 867 +++++++++++++++++++++++++++++++++++------------------- 1 file changed, 569 insertions(+), 298 deletions(-) diff --git a/README.md b/README.md index 632ea10998..433a4ad5e3 100644 --- a/README.md +++ b/README.md @@ -4,17 +4,17 @@ ## 目录 * [测试环境](#测试环境) -* [智能视觉(PaddleCV)](#PaddleCV) +* [智能视觉(PaddleCV)](#PaddleCV) * [SE-ResNeXt50](#SE-ResNeXt50) * [Mask-RCNN](#Mask-RCNN) * [YOLOv3](#YOLOv3) - * [DeepLab V3+](#DeepLab V3+) + * [DeepLab V3+](#DeepLab V3+) * [CycleGAN](#CycleGAN) -* [智能文本处理(PaddleNLP)](#PaddleNLP) +* [智能文本处理(PaddleNLP)](#PaddleNLP) * [PaddingRNN](#PaddingRNN) * [BERT](#BERT) * [Transformer](#Transformer) -* [强化学习(PARL)](#PARL) +* [强化学习(PARL)](#PARL) * [DDPG](#DDPG) ## 测试环境 @@ -63,193 +63,338 @@ SE-ResNeXt50模型单卡训练速度与PyTorch**持平**,八卡训练速度和显存占用都**优于**PyTorch。 - 准备工作 -- 训练速度 - -单位:images/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 1 GPU | 168.334 | 163.130 | -| 8 GPUs (单进程) | 843.348 | 595.274 | -| 8 GPUs (多进程) | - | - | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 1 GPU | 168.478 | 163.294 | -| 8 GPUs (单进程) | 836.357 | 573.732 | -| 8 GPUs (多进程) | - | - | +- 训练速度(单位:images/s) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0PyTorch 1.1.0Paddle 1.5.0PyTorch 1.1.0
1 GPU168.334163.130168.478163.294
8 GPUs (单进程)843.348595.274836.357573.732
8 GPUs (多进程)----
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 单卡显存占用 | 5515 MiB | 5677 MiB | -| 单卡最大batch_size | 112 | 112 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 单卡显存占用 | 5535 MiB | 5695 MiB | -| 单卡最大batch_size | 112 | 112 | + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0PyTorch 1.1.0Paddle 1.5.0PyTorch 1.1.0
单卡显存占用5515 MiB5677 MiB5535 MiB5695 MiB
单卡最大batch_size112112112112
### Mask-RCNN Mask-RCNN模型训练速度和显存占用都**优于**PyTorch。 - 准备工作 -- 训练速度 - -单位:images/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 1 GPU | 3.811 | 3.240 | -| 8 GPUs (单进程) | 18.707 | - | -| 8 GPUs (多进程) | 23.014 | 21.864 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 1 GPU | 3.780 | - | -| 8 GPUs (单进程) | 18.505 | - | -| 8 GPUs (多进程) | 23.199 | - | +- 训练速度(单位:images/s) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0PyTorch 1.1.0Paddle 1.5.0PyTorch 1.1.0
1 GPU3.8113.2403.780-
8 GPUs (单进程)18.707-18.505-
8 GPUs (多进程)23.01421.86423.199-
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 单卡显存占用 | 3871 MiB | 4548 MiB | -| 单卡最大batch_size | 5 | 5 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 单卡显存占用 | 3907 MiB | - | -| 单卡最大batch_size | 5 | - | + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0PyTorch 1.1.0Paddle 1.5.0PyTorch 1.1.0
单卡显存占用3871 MiB4548 MiB3907 MiB-
单卡最大batch_size555-
### YOLOv3 YOLOv3模型训练速度和显存占用都**优于**MXNet。 - 准备工作 -- 训练速度 - -单位:images/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | MXNet | -|---|---|---| -| 1 GPU | 29.901 | 18.578 | -| 8 GPUs (单进程) | 58.175 | 35.574 | -| 8 GPUs (多进程) | 99.530 | - | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | MXNet | -|---|---|---| -| 1 GPU | 30.591 | 17.001 | -| 8 GPUs (单进程) | 57.997 | 33.755 | -| 8 GPUs (多进程) | 104.553 | - | +- 训练速度(单位:images/s) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0MXNetPaddle 1.5.0MXNet
1 GPU29.90118.57830.59117.001
8 GPUs (单进程)58.17535.57457.99733.755
8 GPUs (多进程)99.530-104.553-
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 单卡显存占用 | 10583 MiB | 14304 MiB | -| 单卡最大batch_size | 14 | 14 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | PyTorch 1.1.0 | -|---|---|---| -| 单卡显存占用 | 10599 MiB | 9842 MiB | -| 单卡最大batch_size | 14 | 14 | - -### DeepLab V3+ + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0MXNetPaddle 1.5.0MXNet
单卡显存占用10583 MiB14304 MiB10599 MiB9842 MiB
单卡最大batch_size14141414
+ +### DeepLab V3+ Deep Lab V3+模型训练速度和显存占用都**优于**TensorFlow。 - 准备工作 -- 训练速度 - -单位:images/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 13.695 | 6.4 | -| 8 GPUs (单进程) | 59.721 | 16.508 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 14.261 | 6.309 | -| 8 GPUs (单进程) | 58.024 | 16.427 | +- 训练速度(单位:images/s) + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU13.6956.414.2616.309
8 GPUs (单进程)59.72116.50858.02416.427
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 单卡显存占用 | 5163 MiB | 8934 MiB | -| 单卡最大batch_size | 9 | 7 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 5167 MiB | 8927 MiB | -| 单卡最大batch_size | 9 | 7 | + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用5163 MiB8934 MiB5167 MiB8927 MiB
单卡最大batch_size9797
### CycleGAN Cycle-GAN模型不支持多卡训练,其单卡训练速度和显存占用都**优于**TensorFlow。 - 准备工作 -- 训练速度 - -单位:images/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 7.513 | 6.452 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 7.591 | 6.823 | +- 训练速度(单位:images/s) + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU7.5136.4527.5916.823
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 单卡显存占用 | 2479 MiB | 5094 MiB | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 2499 MiB | 5089 MiB | + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用2479 MiB5094 MiB2499 MiB5089 MiB
## PaddleNLP @@ -264,140 +409,248 @@ TensorFlow的PaddingRNN开源模型多卡训练失败,故只测试单卡训练 PaddleRNN模型在static模式下,单卡训练速度和显存占用都**差于**TensorFlow。 - 准备工作 -- 训练速度 - -单位:steps/s - -1. static模式,small模型,**CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 61.208 | 73.991 | - -2. static模式,small模型,**CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 63.400 | 72.406 | - -3. static模式,large模型,**CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 17.479 | 18.529 | - -4. static模式,large模型,**CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 17.107 | 17.914 | +- 训练速度(单位:steps/s) + + + + + + + + + + + + + + + + + + + + + + +
static模式
small模型
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU61.20873.99163.40072.406
+ + + + + + + + + + + + + + + + + + + + + + +
static模式
large模型
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU17.47918.52917.10717.914
- 显存占用 -1. static模式,small模型,**CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 单卡显存占用 | 660 MiB | 660 MiB | - -2. static模式,small模型,**CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 657 MiB | 647 MiB | - -3. static模式,large模型,**CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 单卡显存占用 | 6089 MiB | 5858 MiB | - -4. static模式,large模型,**CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 6083 MiB | 8711 MiB | + + + + + + + + + + + + + + + + + + + + + +
static模式
small模型
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用660 MiB660 MiB657 MiB647 MiB
+ + + + + + + + + + + + + + + + + + + + + + +
static模式
large模型
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用6089 MiB5858 MiB6083 MiB8711 MiB
### BERT TensorFlow的BERT开源模型暂无多卡实现。 BERT模型单卡训练速度和显存占用都优于TensorFlow。 - 准备工作 -- 训练速度 - -单位:steps/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 4.044 | 3.420 | -| 8 GPUs (单进程) | 1.803 | - | -| 8 GPUs (多进程) | 3.114 | - | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 4.003 | - | -| 8 GPUs (单进程) | 1.817 | - | -| 8 GPUs (多进程) | 3.089 | - | +- 训练速度(单位:steps/s) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU4.0443.4204.003-
8 GPUs (单进程)1.803-1.817-
8 GPUs (多进程)3.114-3.089-
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFl 1.12.0 | -|---|---|---| -| 单卡显存占用 | 6551 MiB | 15430 MiB | -| 单卡最大batch_size | 9984 | 9216 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 6545 MiB | - | -| 单卡最大batch_size | 9984 | - | + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用6551 MiB15430 MiB6545 MiB-
单卡最大batch_size998492169984-
### Transformer Transformer模型单卡训练速度与TensorFlow**持平**;多卡训练速度和显存占用**优于**TensorFlow。 - 准备工作 -- 训练速度 - -单位:steps/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 4.865 | 4.750 | -| 8 GPUs (单进程) | 4.227 | 2.302 | -| 8 GPUs (多进程) | 4.445 | - | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 4.883 | 4.721 | -| 8 GPUs (单进程) | 4.355 | 2.520 | -| 8 GPUs (多进程) | 4.460 | - | +- 训练速度(单位:steps/s) + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU4.8654.7504.8834.721
8 GPUs (单进程)4.2272.3024.3552.520
8 GPUs (多进程)4.445-4.460-
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFl 1.12.0 | -|---|---|---| -| 单卡显存占用 | 7137 MiB | 8948 MiB | -| 单卡最大batch_size | 12000 | 11144 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 7147 MiB | 8711 | -| 单卡最大batch_size | 12000 | 11144 | + + + + + + + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用7137 MiB8948 MiB7147 MiB8711 MiB
单卡最大batch_size12000111441200011144
## PARL @@ -409,32 +662,50 @@ Transformer模型单卡训练速度与TensorFlow**持平**;多卡训练速度 DDPG模型不支持多卡训练,其训练速度与竞品持平,显存占用**优于**TensorFlow。 - 准备工作 -- 训练速度 - -单位:epoch/s - -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 1 GPU | 1.615 | 1.606 | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 1 GPU | 1.578 | - | +- 训练速度(单位:epoch/s) + + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
1 GPU1.6151.6061.578-
- 显存占用 -1. **CUDA 9.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.12.0 | -|---|---|---| -| 单卡显存占用 | 563 MiB | 630 MiB | - -2. **CUDA 10.0**测试结果 - -| ` ` | Paddle 1.5.0 | TensorFlow 1.14.0 | -|---|---|---| -| 单卡显存占用 | 3907 MiB | - | \ No newline at end of file + + + + + + + + + + + + + + + + + + + + +
CUDA 9.0CUDA 10.0
Paddle 1.5.0TensorFlow 1.12.0Paddle 1.5.0TensorFlow 1.14.0
单卡显存占用563 MiB630 MiB557 MiB-
\ No newline at end of file From fed3839369c60a029d9f5625973947cf60f38b69 Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Mon, 8 Jul 2019 14:19:10 +0800 Subject: [PATCH 5/8] Add the discription of how to test SE-ResNeXt50. --- README.md | 21 ++++++++++++++++++++- 1 file changed, 20 insertions(+), 1 deletion(-) diff --git a/README.md b/README.md index 433a4ad5e3..217332734c 100644 --- a/README.md +++ b/README.md @@ -62,7 +62,26 @@ ### SE-ResNeXt50 SE-ResNeXt50模型单卡训练速度与PyTorch**持平**,八卡训练速度和显存占用都**优于**PyTorch。 -- 准备工作 +- 测试说明 + + 测试之前,需要做如下准备工作: + - 将测试脚本[se-resnext/paddle/run.sh](https://github.com/PaddlePaddle/benchmark/blob/master/se-resnext/paddle/run.sh)拷贝到模型代码目录[PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification)下面。 + - 下载预训练参数`SE_ResNeXt50_32x4d_pretrained.tar`,并解压到模型代码目录[PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification)下面。 + - 准备数据集`ILSVRC2012`。如果你本地已有`ILSVRC2012`数据集,可将相应目录和文件软链接到模型目录[PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification)的子目录`data/ILSVRC2012`下面。数据准备好后,目录结构如下。 + ```bash + $ ls -l data/ILSVRC2012/ + -rw-r--r-- 1 liuyiqun liuyiqun 1127 Jun 12 11:54 download_imagenet2012.sh + lrwxrwxrwx 1 root root 22 Jun 12 11:53 train -> /data/ILSVRC2012/train + -rw-r--r-- 1 181779 DOORGOD 51516435 Aug 10 2018 train_list.txt + lrwxrwxrwx 1 root root 20 Jun 12 11:53 val -> /data/ILSVRC2012/val + -rw-r--r-- 1 181779 DOORGOD 1844500 Aug 10 2018 val_list.txt + ``` + + 训练速度测试命令: + - 单GPU:`CUDA_VISIBLE_DEVICES=0 bash run.sh speed 32 sp` + - 8 GPUs (单进程):`CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash run.sh speed 32 sp` + - 8 GPUs (多进程):`CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash run.sh speed 32 mp` + - 训练速度(单位:images/s) From 54673fa41088c983b4d7bdb5ad6516f3c195008e Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Mon, 8 Jul 2019 15:17:53 +0800 Subject: [PATCH 6/8] Remove the details of how to test. --- README.md | 40 +++++++--------------------------------- 1 file changed, 7 insertions(+), 33 deletions(-) diff --git a/README.md b/README.md index 217332734c..1c7194bba2 100644 --- a/README.md +++ b/README.md @@ -8,8 +8,8 @@ * [SE-ResNeXt50](#SE-ResNeXt50) * [Mask-RCNN](#Mask-RCNN) * [YOLOv3](#YOLOv3) - * [DeepLab V3+](#DeepLab V3+) - * [CycleGAN](#CycleGAN) + * [DeepLab V3+](#DeepLab\ V3+) + * [Cycle-GAN](#Cycle-GAN) * [智能文本处理(PaddleNLP)](#PaddleNLP) * [PaddingRNN](#PaddingRNN) * [BERT](#BERT) @@ -45,6 +45,8 @@ - NCCL Version:2.4.2 - cuDNN Version:7.4.2.24,7.5.0.56 + 注意:测试所用GPU服务器为虚拟机,跟相同配置的物理机测试结果可能会有一定的差别。 + - CPU服务器参数 - CPU型号:Intel(R) Xeon(R) CPU E5-2650 v4 @ 2.20GHz,24核 - 指令集:AVX2 @@ -57,31 +59,11 @@ | 目标检测 | Mask-RCNN | [PaddleCV/rcnn](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/rcnn) | - | [maskrcnn-benchmark](https://github.com/facebookresearch/maskrcnn-benchmark) | - | COCO17 | 1 | | 目标检测 | YOLOv3 | [Paddle/yolov3](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/yolov3) | - | - | [gluon-cv](https://github.com/dmlc/gluon-cv/tree/master/scripts/detection/yolo) | COCO17 | 8 | | 图像分割 | DeepLab V3+ | [PaddleCV/deeplabv3+](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/deeplabv3%2B) | [tensorflow/models](https://github.com/tensorflow/models/tree/master/research/deeplab) | - | - | cityscape | 2 | -| 图像生成 | CycleGAN | [PaddleCV/PaddleGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN/cycle_gan) | [CycleGAN](https://github.com/hardikbansal/CycleGAN) | - | - | horse2zebra | 1 | +| 图像生成 | Cycle-GAN | [PaddleCV/PaddleGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN/cycle_gan) | [CycleGAN](https://github.com/hardikbansal/CycleGAN) | - | - | horse2zebra | 1 | ### SE-ResNeXt50 SE-ResNeXt50模型单卡训练速度与PyTorch**持平**,八卡训练速度和显存占用都**优于**PyTorch。 -- 测试说明 - - 测试之前,需要做如下准备工作: - - 将测试脚本[se-resnext/paddle/run.sh](https://github.com/PaddlePaddle/benchmark/blob/master/se-resnext/paddle/run.sh)拷贝到模型代码目录[PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification)下面。 - - 下载预训练参数`SE_ResNeXt50_32x4d_pretrained.tar`,并解压到模型代码目录[PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification)下面。 - - 准备数据集`ILSVRC2012`。如果你本地已有`ILSVRC2012`数据集,可将相应目录和文件软链接到模型目录[PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification)的子目录`data/ILSVRC2012`下面。数据准备好后,目录结构如下。 - ```bash - $ ls -l data/ILSVRC2012/ - -rw-r--r-- 1 liuyiqun liuyiqun 1127 Jun 12 11:54 download_imagenet2012.sh - lrwxrwxrwx 1 root root 22 Jun 12 11:53 train -> /data/ILSVRC2012/train - -rw-r--r-- 1 181779 DOORGOD 51516435 Aug 10 2018 train_list.txt - lrwxrwxrwx 1 root root 20 Jun 12 11:53 val -> /data/ILSVRC2012/val - -rw-r--r-- 1 181779 DOORGOD 1844500 Aug 10 2018 val_list.txt - ``` - - 训练速度测试命令: - - 单GPU:`CUDA_VISIBLE_DEVICES=0 bash run.sh speed 32 sp` - - 8 GPUs (单进程):`CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash run.sh speed 32 sp` - - 8 GPUs (多进程):`CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 bash run.sh speed 32 mp` - - 训练速度(单位:images/s)
@@ -154,7 +136,6 @@ SE-ResNeXt50模型单卡训练速度与PyTorch**持平**,八卡训练速度和 ### Mask-RCNN Mask-RCNN模型训练速度和显存占用都**优于**PyTorch。 -- 准备工作 - 训练速度(单位:images/s)
@@ -227,7 +208,6 @@ Mask-RCNN模型训练速度和显存占用都**优于**PyTorch。 ### YOLOv3 YOLOv3模型训练速度和显存占用都**优于**MXNet。 -- 准备工作 - 训练速度(单位:images/s)
@@ -297,10 +277,9 @@ YOLOv3模型训练速度和显存占用都**优于**MXNet。
-### DeepLab V3+ +### DeepLab V3+ Deep Lab V3+模型训练速度和显存占用都**优于**TensorFlow。 -- 准备工作 - 训练速度(单位:images/s) @@ -363,10 +342,9 @@ Deep Lab V3+模型训练速度和显存占用都**优于**TensorFlow。
-### CycleGAN +### Cycle-GAN Cycle-GAN模型不支持多卡训练,其单卡训练速度和显存占用都**优于**TensorFlow。 -- 准备工作 - 训练速度(单位:images/s) @@ -427,7 +405,6 @@ Cycle-GAN模型不支持多卡训练,其单卡训练速度和显存占用都** TensorFlow的PaddingRNN开源模型多卡训练失败,故只测试单卡训练的情况。 PaddleRNN模型在static模式下,单卡训练速度和显存占用都**差于**TensorFlow。 -- 准备工作 - 训练速度(单位:steps/s)
@@ -528,7 +505,6 @@ PaddleRNN模型在static模式下,单卡训练速度和显存占用都**差于 TensorFlow的BERT开源模型暂无多卡实现。 BERT模型单卡训练速度和显存占用都优于TensorFlow。 -- 准备工作 - 训练速度(单位:steps/s)
@@ -601,7 +577,6 @@ BERT模型单卡训练速度和显存占用都优于TensorFlow。 ### Transformer Transformer模型单卡训练速度与TensorFlow**持平**;多卡训练速度和显存占用**优于**TensorFlow。 -- 准备工作 - 训练速度(单位:steps/s)
@@ -680,7 +655,6 @@ Transformer模型单卡训练速度与TensorFlow**持平**;多卡训练速度 ### DDPG DDPG模型不支持多卡训练,其训练速度与竞品持平,显存占用**优于**TensorFlow。 -- 准备工作 - 训练速度(单位:epoch/s)
From 72cb501c8a41b6c33e2a9a4b7daada89d8cc493b Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Mon, 8 Jul 2019 15:25:11 +0800 Subject: [PATCH 7/8] Correct some minor errors. --- README.md | 4 ++-- 1 file changed, 2 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 1c7194bba2..374e429178 100644 --- a/README.md +++ b/README.md @@ -8,7 +8,7 @@ * [SE-ResNeXt50](#SE-ResNeXt50) * [Mask-RCNN](#Mask-RCNN) * [YOLOv3](#YOLOv3) - * [DeepLab V3+](#DeepLab\ V3+) + * [DeepLab V3+](#deepLab-v3) * [Cycle-GAN](#Cycle-GAN) * [智能文本处理(PaddleNLP)](#PaddleNLP) * [PaddingRNN](#PaddingRNN) @@ -57,7 +57,7 @@ |---|---|---|---|---|---|---|---| | 图像分类 | SE-ResNeXt50 | [PaddleCV/image_classification](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification) | - | [SENet-PyTorch](https://github.com/miraclewkf/SENet-PyTorch) | - | ILSVRC2012 | 32 | | 目标检测 | Mask-RCNN | [PaddleCV/rcnn](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/rcnn) | - | [maskrcnn-benchmark](https://github.com/facebookresearch/maskrcnn-benchmark) | - | COCO17 | 1 | -| 目标检测 | YOLOv3 | [Paddle/yolov3](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/yolov3) | - | - | [gluon-cv](https://github.com/dmlc/gluon-cv/tree/master/scripts/detection/yolo) | COCO17 | 8 | +| 目标检测 | YOLOv3 | [PaddleCV/yolov3](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/yolov3) | - | - | [gluon-cv](https://github.com/dmlc/gluon-cv/tree/master/scripts/detection/yolo) | COCO17 | 8 | | 图像分割 | DeepLab V3+ | [PaddleCV/deeplabv3+](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/deeplabv3%2B) | [tensorflow/models](https://github.com/tensorflow/models/tree/master/research/deeplab) | - | - | cityscape | 2 | | 图像生成 | Cycle-GAN | [PaddleCV/PaddleGAN](https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/PaddleGAN/cycle_gan) | [CycleGAN](https://github.com/hardikbansal/CycleGAN) | - | - | horse2zebra | 1 | From f1825d84785c53ba266f7060c2a72ccffef40c56 Mon Sep 17 00:00:00 2001 From: Liu Yiqun Date: Mon, 8 Jul 2019 15:30:29 +0800 Subject: [PATCH 8/8] Remove the symbol link. --- PaddingRNN/lstm_paddle/language_model | 1 - 1 file changed, 1 deletion(-) delete mode 120000 PaddingRNN/lstm_paddle/language_model diff --git a/PaddingRNN/lstm_paddle/language_model b/PaddingRNN/lstm_paddle/language_model deleted file mode 120000 index 1cd4a6726b..0000000000 --- a/PaddingRNN/lstm_paddle/language_model +++ /dev/null @@ -1 +0,0 @@ -../../models/PaddleNLP/language_model/ \ No newline at end of file