Merge pull request #106 from an1018/add_readthedocs

chajchaj · web-flow · commit 6cf91cdd0671 · 2021-06-16T14:02:20.000+08:00
modify CV
diff --git a/docs/tutorials/computer_vision/OCR/OCR.md b/docs/tutorials/computer_vision/OCR/OCR.md
@@ -1,6 +1,6 @@
 # OCR综述
 
-### 什么是OCR
+## 什么是OCR
 
 OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析识别处理，获取文字和版面信息的过程，是典型的计算机视觉任务，通常由文本检测和文本识别两个子任务构成。
 
@@ -43,33 +43,33 @@ OCR(Optical Character Recognition,光学字符识别)是指对图像进行分析
   <img src='https://github.com/an1018/pics/raw/main/ocr_dl.png' width='500px'/>
 </div>
 
-### OCR 常用检测方法
+## OCR 常用检测方法
 
 OCR文字检测就是将图片中的文字区域检测出来。
 
 常用的基于深度学习的文字检测方法一般可以分为基于回归的、基于分割的两大类，当然还有一些将两者进行结合的方法。
 
-####  基于回归的方法
+###  基于回归的方法
 
 基于回归的方法又分为box回归和像素值回归：
 
-##### 1) box回归
+#### 1) box回归
 
 采用box回归的方法主要有CTPN、Textbox系列和EAST
 
 * **优点：**对规则形状文本检测效果较好
 
 * **缺点：**无法准确检测不规则形状文本。
 
-##### 2) 像素值回归
+#### 2) 像素值回归
 
 采用像素值回归的方法主要有CRAFT和SA-Text，这类算法能够检测弯曲文本且对小文本效果优秀但是实时性能不够。	
 
-#### 基于分割的算法
+### 基于分割的算法
 
 如PSENet，这类算法不受文本形状的限制，对各种形状的文本都能取得较好的效果，但是往往后处理比较复杂，导致耗时严重。目前也有一些算法专门针对这个问题进行改进，如DB，将二值化进行近似，使其可导，融入训练，从而获取更准确的边界，大大降低了后处理的耗时。
 
-### OCR常用识别方法
+## OCR常用识别方法
 
 [Rosetta](https://arxiv.org/abs/1910.05085)
 
@@ -81,15 +81,15 @@ OCR文字检测就是将图片中的文字区域检测出来。
 
 [SRN](https://arxiv.org/abs/2003.12294)
 
-### OCR常用评估指标
+## OCR常用评估指标
 
 （1）检测阶段：先按照检测框和标注框的IOU评估，IOU大于某个阈值判断为检测准确。这里检测框和标注框不同于一般的通用目标检测框，是采用多边形进行表示。检测准确率：正确的检测框个数在全部检测框的占比，主要是判断检测指标。检测召回率：正确的检测框个数在全部标注框的占比，主要是判断漏检的指标。
 
 （2）识别阶段： 字符识别准确率，即正确识别的文本行占标注的文本行数量的比例，只有整行文本识别对才算正确识别。
 
 （3）端到端统计： 端对端召回率：准确检测并正确识别文本行在全部标注文本行的占比； 端到端准确率：准确检测并正确识别文本行在 检测到的文本行数量 的占比； 准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的的检测框中的文本与标注的文本相同。
 
-### 应用场景
+## 应用场景
 
 在日常生活中，文字内容无处不在，根据拍摄的内容，自动分析图像中的文字信息已经成为人们的广泛诉求。而通过深度学习技术，可以自动的定位文字区域，并且学习包含丰富语义信息的特征，识别出图像中的文字内容。当前这一技术已经广泛应用于金融、交通等各行各业中。
 
@@ -100,7 +100,7 @@ OCR文字检测就是将图片中的文字区域检测出来。
 * 医疗票据：医疗发票、病例首页等；
 * ...
 
-### OCR面临的挑战
+## OCR面临的挑战
 
 对应到OCR技术实现问题上，则一般面临仿射变换、尺度问题、光照不足、拍摄模糊等技术难点； 另外OCR应用常对接海量数据，因此要求数据能够得到实时处理；并且OCR应用常部署在移动端或嵌入式硬件，而端侧的存储空间和计算能力有限，因此对OCR模型的大小和预测速度有很高的要求。
 
diff --git a/docs/tutorials/computer_vision/OCR/OCR_Detection/EAST.md b/docs/tutorials/computer_vision/OCR/OCR_Detection/EAST.md
@@ -51,13 +51,13 @@ $$L=L_{s}+λ_{g}L_{g}$$
 
 其中，$$L_{s}$$为分数图损失，$$L_{g}$$为几何损失，$$λ_{g}$$表示两个损失之间的重要性。
 
-#### 分数图损失
+### 分数图损失
 
 使用类平衡交叉熵：
 
 $$L_{s} = -\beta Y^{*}log(\hat{Y})-(1-\beta)（1-Y^*）log(1-\hat{Y})$$
 
-####  几何损失
+#### 几何损失
 
 * RBOX：IOU损失
 
diff --git a/docs/tutorials/computer_vision/OCR/OCR_Detection/index.rst b/docs/tutorials/computer_vision/OCR/OCR_Detection/index.rst
@@ -2,7 +2,7 @@ OCR检测方法
 ================================
 
 .. toctree::
-   :maxdepth: 3
+   :maxdepth: 2
 
    CTPN <CTPN>
    EAST <EAST>
diff --git a/docs/tutorials/computer_vision/object_detection/IOU.md b/docs/tutorials/computer_vision/object_detection/IOU.md
@@ -19,7 +19,7 @@ $$B:  [x_{b1}, y_{b1}, x_{b2}, y_{b2}]$$
 
 假如位置关系如 **图2** 所示：
 
-<center><img src="https://raw.githubusercontent.com/lvjian0706/Deep-Learning-Img/master/Detection/IOU/img/Calculate_IOU.png" width = "400"></center>
+<center><img src="https://raw.githubusercontent.com/lvjian0706/Deep-Learning-Img/master/Detection/IOU/img/Calculate_IOU.png" width = "300"></center>
 <center><br>图2 计算交并比</br></center>
 
 如果二者有相交部分，则相交部分左上角坐标为：
@@ -46,11 +46,13 @@ $$union = S_A + S_B - intersection$$
 
 计算交并比：
 
+
+
 $$IoU = \frac{intersection}{union}$$
 
 交并比实现代码如下：
 
-* 当矩形框的坐标形式为xyxy时
+- 当矩形框的坐标形式为xyxy时
 
 
 ```python
@@ -86,12 +88,12 @@ def box_iou_xyxy(box1, box2):
 bbox1 = [100., 100., 200., 200.]
 bbox2 = [120., 120., 220., 220.]
 iou = box_iou_xyxy(bbox1, bbox2)
-print('IoU is {}'.format(iou))
+print('IoU is {}'.format(iou))  
 ```
 
-* 当矩形框的坐标形式为xywh时
+- 当矩形框的坐标形式为xywh时
 
-```python
+```Python
 import numpy as np
 
 # 计算IoU，矩形框的坐标形式为xywh
@@ -140,5 +142,3 @@ print('IoU is {}'.format(iou))
 
    答案：两个矩形框完全不相交。
 
----
-