Skip to content

Commit 2b23aa8

Browse files
authored
Merge branch 'PaddlePaddle:main' into main
2 parents d3830c2 + 6986a2a commit 2b23aa8

14 files changed

+6
-61
lines changed

README.md

-4
Original file line numberDiff line numberDiff line change
@@ -51,10 +51,6 @@ PaddleOCR 由 [PMC](https://github.com/PaddlePaddle/PaddleOCR/issues/12122) 监
5151

5252
## [快速开始](https://paddlepaddle.github.io/PaddleOCR/quick_start.html)
5353

54-
## 📖 技术交流合作
55-
56-
- 飞桨低代码开发工具 PaddleX 官方交流频道:<https://aistudio.baidu.com/community/channel/610>
57-
5854
## 📚《动手学 OCR》电子书
5955

6056
- [《动手学 OCR》电子书](https://paddlepaddle.github.io/PaddleOCR/ppocr/blog/ocr_book.html)

configs/rec/PP-OCRv4/ch_PP-OCRv4_rec_distillation.yml

+1-1
Original file line numberDiff line numberDiff line change
@@ -16,7 +16,7 @@ Global:
1616
use_visualdl: false
1717
infer_img: doc/imgs_words/ch/word_1.jpg
1818
character_dict_path: ppocr/utils/ppocr_keys_v1.txt
19-
max_text_length: 25
19+
max_text_length: &max_text_length 25
2020
infer_mode: false
2121
use_space_char: true
2222
distributed: true

docs/applications/PCB字符识别.md

+1-5
Original file line numberDiff line numberDiff line change
@@ -180,11 +180,7 @@ Eval.dataset.transforms.DetResizeForTest: 尺寸
180180
limit_type: 'min'
181181
```
182182

183-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
184-
185-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
186-
187-
将下载或训练完成的模型放置在对应目录下即可完成模型推理
183+
将训练完成的模型放置在对应目录下即可完成模型推理
188184

189185
```python linenums="1"
190186
cd /home/aistudio/PaddleOCR

docs/applications/overview.md

-4
Original file line numberDiff line numberDiff line change
@@ -49,8 +49,4 @@ PaddleOCR场景应用覆盖通用,制造、金融、交通行业的主要OCR
4949

5050
## 模型下载
5151

52-
如需下载上述场景中已经训练好的垂类模型,可以加入PaddleX官方交流频道获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
53-
54-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
55-
5652
如果您是企业开发者且未在上述场景中找到合适的方案,可以填写[OCR应用合作调研问卷](https://paddle.wjx.cn/vj/QwF7GKw.aspx),免费与官方团队展开不同层次的合作,包括但不限于问题抽象、确定技术方案、项目答疑、共同研发等。如果您已经使用PaddleOCR落地项目,也可以填写此问卷,与飞桨平台共同宣传推广,提升企业技术品宣。期待您的提交!

docs/applications/光功率计数码管字符识别.md

+1-5
Original file line numberDiff line numberDiff line change
@@ -395,11 +395,7 @@ python tools/train.py -c rec_svtr_tiny_none_ctc_ch_train/rec_svtr_tiny_6local_6g
395395

396396
### 3.4 验证效果
397397

398-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
399-
400-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
401-
402-
将下载或训练完成的模型放置在对应目录下即可完成模型推理
398+
将训练完成的模型放置在对应目录下即可完成模型推理
403399

404400
#### 指标评估
405401

docs/applications/包装生产日期识别.md

-8
Original file line numberDiff line numberDiff line change
@@ -426,10 +426,6 @@ sprider
426426

427427
首先下载预训练模型,PP-OCRv3检测模型下载链接:<https://paddleocr.bj.bcebos.com/PP-OCRv3/chinese/ch_PP-OCRv3_det_infer.tar>
428428

429-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
430-
431-
PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
432-
433429
完成下载后,可将模型存储于如下位置:
434430

435431
```bash linenums="1"
@@ -666,8 +662,4 @@ python tools/train.py -c configs/rec/PP-OCRv3/ch_PP-OCRv3_rec_distillation.yml \
666662

667663
可以看到,相较于原始PP-OCRv3的识别精度62.99%,使用合成数据+真实数据finetune后,识别精度能提升24%。
668664

669-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
670-
671-
PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
672-
673665
模型的推理部署方法可以参考repo文档: [docs](../ppocr/infer_deploy/python_infer.md)

docs/applications/印章弯曲文字识别.md

-4
Original file line numberDiff line numberDiff line change
@@ -1027,7 +1027,3 @@ Train:
10271027

10281028
训练完成后可以发现测试集指标达到了61%。
10291029
由于数据较少,训练时会发现在训练集上的acc指标远大于测试集上的acc指标,即出现过拟合现象。通过补充数据和一些数据增强可以缓解这个问题。
1030-
1031-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
1032-
1033-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>

docs/applications/发票关键信息抽取.md

-4
Original file line numberDiff line numberDiff line change
@@ -257,10 +257,6 @@ LayoutXLM与VI-LayoutXLM针对该场景的训练结果如下所示。
257257

258258
可以看出,对于VI-LayoutXLM相比LayoutXLM的Hmean高了1.3%。
259259

260-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
261-
262-
* PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
263-
264260
#### 4.4.3 模型评估
265261

266262
模型训练过程中,使用的是知识蒸馏的策略,最终保留了学生模型的参数,在评估时,我们需要针对学生模型的配置文件进行修改: [re_vi_layoutxlm_xfund_zh.yml](../configs/kie/vi_layoutxlm/re_vi_layoutxlm_xfund_zh.yml),修改内容与训练配置相同,包括**类别映射文件、数据目录**

docs/applications/多模态表单识别.md

+1-5
Original file line numberDiff line numberDiff line change
@@ -273,11 +273,7 @@ CUDA_VISIBLE_DEVICES=0 python tools/train.py \
273273

274274
使用训练好的模型进行评估,更新模型路径`Global.checkpoints`。
275275

276-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
277-
278-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
279-
280-
将下载或训练完成的模型放置在对应目录下即可完成模型评估
276+
将训练完成的模型放置在对应目录下即可完成模型评估
281277

282278
```bash linenums="1"
283279
%cd /home/aistudio/PaddleOCR/

docs/applications/手写文字识别.md

+1-5
Original file line numberDiff line numberDiff line change
@@ -184,11 +184,7 @@ python tools/eval.py -c configs/rec/PP-OCRv3/ch_PP-OCRv3_rec_distillation.yml -o
184184
[2022/07/14 10:54:06] ppocr INFO: fps:928.948733797251
185185
```
186186

187-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
188-
189-
* PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
190-
191-
将下载或训练完成的模型放置在对应目录下即可完成模型推理
187+
将训练完成的模型放置在对应目录下即可完成模型推理
192188

193189
## 8. 模型导出推理
194190

docs/applications/扫描合同关键信息提取.md

-3
Original file line numberDiff line numberDiff line change
@@ -275,6 +275,3 @@ UIE的建模方式主要是通过 `Prompt` 方式来建模, `Prompt` 在小样
275275

276276
![](./images/50a49a3c9f8348bfa04e8c8b97d3cce0d0dd6b14040f43939268d120688ef7ca.jpg)
277277

278-
更多场景下的垂类模型获取,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
279-
280-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>

docs/applications/液晶屏读数识别.md

+1-5
Original file line numberDiff line numberDiff line change
@@ -300,11 +300,7 @@ python tools/eval.py -c configs/det/ch_PP-OCRv3/ch_PP-OCRv3_det_cml.yml -o Globa
300300
| 3 | PP-OCRv3中英文超轻量检测预训练模型fintune教师模型 |84.80%|
301301
| 4 | 基于2和3训练好的模型fintune |82.70%|
302302

303-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
304-
305-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
306-
307-
将下载或训练完成的模型放置在对应目录下即可完成模型推理
303+
将训练完成的模型放置在对应目录下即可完成模型推理
308304

309305
#### 4.3.6 模型导出推理
310306

docs/applications/轻量级车牌识别.md

-4
Original file line numberDiff line numberDiff line change
@@ -413,10 +413,6 @@ python tools/eval.py -c configs/rec/PP-OCRv3/ch_PP-OCRv3_rec.yml -o \
413413
Eval.dataset.label_file_list=[/home/aistudio/data/CCPD2020/PPOCR/test/rec.txt]
414414
```
415415

416-
如需获取已训练模型,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
417-
418-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
419-
420416
评估部分日志如下:
421417

422418
```bash linenums="1"

docs/applications/高精度中文识别模型.md

-4
Original file line numberDiff line numberDiff line change
@@ -49,10 +49,6 @@ pip install -r PaddleOCR/requirements.txt -i https://mirror.baidu.com/pypi/simpl
4949

5050
### 快速使用
5151

52-
获取SVTR中文模型文件,请加入PaddleX官方交流频道,获取20G OCR学习大礼包(内含《动手学OCR》电子书、课程回放视频、前沿论文等重磅资料)
53-
54-
- PaddleX官方交流频道:<https://aistudio.baidu.com/community/channel/610>
55-
5652
```bash linenums="1"
5753
# 解压模型文件
5854
tar xf svtr_ch_high_accuracy.tar

0 commit comments

Comments
 (0)