Skip to content

Commit 6cf91cd

Browse files
authored
Merge pull request #106 from an1018/add_readthedocs
modify CV
2 parents b7b3b10 + adfcfe1 commit 6cf91cd

File tree

4 files changed

+20
-20
lines changed

4 files changed

+20
-20
lines changed

docs/tutorials/computer_vision/OCR/OCR.md

Lines changed: 10 additions & 10 deletions
Original file line numberDiff line numberDiff line change
@@ -1,6 +1,6 @@
11
# OCR综述
22

3-
### 什么是OCR
3+
## 什么是OCR
44

55
OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理,获取文字和版面信息的过程,是典型的计算机视觉任务,通常由文本检测和文本识别两个子任务构成。
66

@@ -43,33 +43,33 @@ OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析
4343
<img src='https://github.com/an1018/pics/raw/main/ocr_dl.png' width='500px'/>
4444
</div>
4545

46-
### OCR 常用检测方法
46+
## OCR 常用检测方法
4747

4848
OCR文字检测就是将图片中的文字区域检测出来。
4949

5050
常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类,当然还有一些将两者进行结合的方法。
5151

52-
#### 基于回归的方法
52+
### 基于回归的方法
5353

5454
基于回归的方法又分为box回归和像素值回归:
5555

56-
##### 1) box回归
56+
#### 1) box回归
5757

5858
采用box回归的方法主要有CTPN、Textbox系列和EAST
5959

6060
* **优点:**对规则形状文本检测效果较好
6161

6262
* **缺点:**无法准确检测不规则形状文本。
6363

64-
##### 2) 像素值回归
64+
#### 2) 像素值回归
6565

6666
采用像素值回归的方法主要有CRAFT和SA-Text,这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。
6767

68-
#### 基于分割的算法
68+
### 基于分割的算法
6969

7070
如PSENet,这类算法不受文本形状的限制,对各种形状的文本都能取得较好的效果,但是往往后处理比较复杂,导致耗时严重。目前也有一些算法专门针对这个问题进行改进,如DB,将二值化进行近似,使其可导,融入训练,从而获取更准确的边界,大大降低了后处理的耗时。
7171

72-
### OCR常用识别方法
72+
## OCR常用识别方法
7373

7474
[Rosetta](https://arxiv.org/abs/1910.05085)
7575

@@ -81,15 +81,15 @@ OCR文字检测就是将图片中的文字区域检测出来。
8181

8282
[SRN](https://arxiv.org/abs/2003.12294)
8383

84-
### OCR常用评估指标
84+
## OCR常用评估指标
8585

8686
(1)检测阶段:先按照检测框和标注框的IOU评估,IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框,是采用多边形进行表示。检测准确率:正确的检测框个数在全部检测框的占比,主要是判断检测指标。检测召回率:正确的检测框个数在全部标注框的占比,主要是判断漏检的指标。
8787

8888
(2)识别阶段: 字符识别准确率,即正确识别的文本行占标注的文本行数量的比例,只有整行文本识别对才算正确识别。
8989

9090
(3)端到端统计: 端对端召回率:准确检测并正确识别文本行在全部标注文本行的占比; 端到端准确率:准确检测并正确识别文本行在 检测到的文本行数量 的占比; 准确检测的标准是检测框与标注框的IOU大于某个阈值,正确识别的的检测框中的文本与标注的文本相同。
9191

92-
### 应用场景
92+
## 应用场景
9393

9494
在日常生活中,文字内容无处不在,根据拍摄的内容,自动分析图像中的文字信息已经成为人们的广泛诉求。而通过深度学习技术,可以自动的定位文字区域,并且学习包含丰富语义信息的特征,识别出图像中的文字内容。当前这一技术已经广泛应用于金融、交通等各行各业中。
9595

@@ -100,7 +100,7 @@ OCR文字检测就是将图片中的文字区域检测出来。
100100
* 医疗票据:医疗发票、病例首页等;
101101
* ...
102102

103-
### OCR面临的挑战
103+
## OCR面临的挑战
104104

105105
对应到OCR技术实现问题上,则一般面临仿射变换、尺度问题、光照不足、拍摄模糊等技术难点; 另外OCR应用常对接海量数据,因此要求数据能够得到实时处理;并且OCR应用常部署在移动端或嵌入式硬件,而端侧的存储空间和计算能力有限,因此对OCR模型的大小和预测速度有很高的要求。
106106

docs/tutorials/computer_vision/OCR/OCR_Detection/EAST.md

Lines changed: 2 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -51,13 +51,13 @@ $$L=L_{s}+λ_{g}L_{g}$$
5151

5252
其中,$$L_{s}$$为分数图损失,$$L_{g}$$为几何损失,$$λ_{g}$$表示两个损失之间的重要性。
5353

54-
#### 分数图损失
54+
### 分数图损失
5555

5656
使用类平衡交叉熵:
5757

5858
$$L_{s} = -\beta Y^{*}log(\hat{Y})-(1-\beta)(1-Y^*)log(1-\hat{Y})$$
5959

60-
#### 几何损失
60+
#### 几何损失
6161

6262
* RBOX:IOU损失
6363

docs/tutorials/computer_vision/OCR/OCR_Detection/index.rst

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -2,7 +2,7 @@ OCR检测方法
22
================================
33

44
.. toctree::
5-
:maxdepth: 3
5+
:maxdepth: 2
66

77
CTPN <CTPN>
88
EAST <EAST>

docs/tutorials/computer_vision/object_detection/IOU.md

Lines changed: 7 additions & 7 deletions
Original file line numberDiff line numberDiff line change
@@ -19,7 +19,7 @@ $$B: [x_{b1}, y_{b1}, x_{b2}, y_{b2}]$$
1919

2020
假如位置关系如 **图2** 所示:
2121

22-
<center><img src="https://raw.githubusercontent.com/lvjian0706/Deep-Learning-Img/master/Detection/IOU/img/Calculate_IOU.png" width = "400"></center>
22+
<center><img src="https://raw.githubusercontent.com/lvjian0706/Deep-Learning-Img/master/Detection/IOU/img/Calculate_IOU.png" width = "300"></center>
2323
<center><br>图2 计算交并比</br></center>
2424

2525
如果二者有相交部分,则相交部分左上角坐标为:
@@ -46,11 +46,13 @@ $$union = S_A + S_B - intersection$$
4646

4747
计算交并比:
4848

49+
50+
4951
$$IoU = \frac{intersection}{union}$$
5052

5153
交并比实现代码如下:
5254

53-
* 当矩形框的坐标形式为xyxy时
55+
- 当矩形框的坐标形式为xyxy时
5456

5557

5658
```python
@@ -86,12 +88,12 @@ def box_iou_xyxy(box1, box2):
8688
bbox1 = [100., 100., 200., 200.]
8789
bbox2 = [120., 120., 220., 220.]
8890
iou = box_iou_xyxy(bbox1, bbox2)
89-
print('IoU is {}'.format(iou))
91+
print('IoU is {}'.format(iou))
9092
```
9193

92-
* 当矩形框的坐标形式为xywh时
94+
- 当矩形框的坐标形式为xywh时
9395

94-
```python
96+
```Python
9597
import numpy as np
9698

9799
# 计算IoU,矩形框的坐标形式为xywh
@@ -140,5 +142,3 @@ print('IoU is {}'.format(iou))
140142

141143
答案:两个矩形框完全不相交。
142144

143-
---
144-

0 commit comments

Comments
 (0)