DBNet论文详解

2023-10-15 02:40:51

原文链接：https://arxiv.org/pdf/1911.08947.pdf
原文代码链接：https://github.com/MhLiao/DB

目前文字检测算法可以大致分为两类：基于回归的方法和基于分割的方法。一般基于分割的方法流程是下图蓝色箭头所示：先通过网络输出图片的文本分割结果（概率图，每个像素为是否是正样本的概率），使用预设的阈值将分割结果图转换为二值图，最后使用一些聚合的操作例如连通域将像素级的结果转换成检测结果。
在这里插入图片描述

从上述描述可知，因为有一个使用阈值来判定前景和背景的操作，这个操作是不可微的，所以无法使用网络将该部分流程放入到网络中训练，本文通过学习threshmap和使用可微的操作来将阈值转换放入到网络中训练。流程如上图中的红色箭头所示。

一、网络结构

本文网络结构如下图所示，训练过程中，将图片输入网络后，经过特征提取和上采样融合并concat操作后得到上图中蓝色的特征图称为F，然后使用F预测出概率图（probability map）称为P和使用F预测出阈值图（ threshold map）称为T，最后通过P和T计算出近似二值图 $\hat{B}$ 。推断过程文本框可以通过近似二值图或者概率图来获取。
在这里插入图片描述

二、二值化

2.1标准的二值化

对于一个大小为 $H\times W$ (图的高为H，宽为W)的概率图P来说，使用下式来将概率图中的每个像素进行二值化：
$B_{i, j} = \left\{ \begin{array}{lr} 1 && if P_{i,j} \ge t, \\ 0 && otherwise. \end{array} \right.$
上式中，t表示预设的阈值，(i, j)表示概率图中的坐标位置。输出1表示该像素为正样本也就是文字区域，输出0表示该像素为负样本也就是背景。

2.2 可微的二值化（differentiable binarization）

上述的二值化方法不可微，所以没法放入网络学习中优化。为了解决这个问题，本文提出一个近似的阶跃函数：
$\hat{B}_{i, j} = \frac{1}{1 + e^{-k(P_{i,j} - T_{i, j})}}$
上式输出的 $\hat{B}$ 表示近似的二值图，T是网络学习的阈值图，k是一个因子，本文设为50。该函数的图与上述的阶跃函数很近似，如下图中的a图所示。
在这里插入图片描述

之所以这个DB会改善网络性能，可以从反向传播梯度方面来解释。定义 $\frac{1}{1+e^{-kx}}$ ，这里 $x = P_{i,j} - T_{i, j}$ 就是上述定义的DB函数了。使用二值交叉熵来作为loss的情况下，对于正样本的loss $l_+$ 计算和负样本的loss $l_-$ 计算可以表示成下两式：
$l_{+} = -log\frac{1}{1 + e^{-kx}}$
$l_{-} = -log(1 - \frac{1}{1 + e^{-kx}})$

loss对于输入x的偏导数为
$\frac{\partial l_{+}}{\partial x} = -kf(x)e^{-kx}$
$\frac{\partial l_{-}}{\partial x} = kf(x)$
上述两函数如上图中的b和c图所示，b图表示 $\frac{\partial l_{+}}{\partial x}$ , c图表示 $\frac{\partial l_{-}}{\partial x}$ .

从微分公式可以看出

k是梯度的增益因子
梯度对于错误预测的增益幅度很大，例如当正样本被预测为负样本时如上图中b图x<0的情况，反之亦然

三、自适应阈值

上面讲述了怎么在得到概率图P和阈值图T后，将P二值化为近似二值图 $\hat{B}$ 。这节讲述了怎么得到概率图P、阈值图T、二值图 $\hat{B}$ 的标签。

3.1 形变卷积

因为考虑到可能需要大的感受野，文章将形变卷积应用到ResNet-18或ResNet-50的网络中。

3.2 标签的生成

概率图P和二值图 $\hat{B}$ 使用的是相同的标签。该标签的生成采用了PSENet中的生成方法。将每个标注框缩小一定的偏移量，偏移量的大小的定义如下式所示，得到的标签图称为 $G_s$ ，原始标注文本框为 $G$
$\frac{A(1-r^2)}{L}$
式中，L是标注框的周长，A是标注框的面积，r为预设的缩放因子，本文定义为0.4。

对于阈值图T的标签生成略有差别，因为文章写得比较简洁。下面按照作者的代码来讲解

首先对原始标注框 $G$ ，采用上述偏移量D来进行扩充，得到的框为 $G_d$
计算框 $G_d$ 内所有的点到G的四条边的距离，选择最小的距离（也就是 $G_d$ 框内像素离它最近的G框的边的距离，下面简称像素到G框的距离）
将所求的 $G_d$ 框内所有像素到G框的距离，除以偏移量D进行归一化
将3步骤中归一化的距离限制在[0,1]内，即大于1的改为1，小于0的改为0
使用1减去4中得到的map，这里得到的就是 $G_d$ 框和 $G_s$ 框之间的像素到G框最近边的归一化距离
因为这个阈值图T的label，所以label不能为0和1，需要进行一定的缩放，将1缩放到0.7的值，将0缩放到0.3，

下图为上述流程求出的阈值图T，灰色的值为0.3，最白的值为0.7
在这里插入图片描述

loss函数

本文采用的loss函数公式如下所示
$L_s + \alpha \times L_b + \beta \times L_t$
其中， $L_s$ 为概率图的loss， $L_b$ 为二值图的loss， $L_t$ 为阈值图的loss。本文中 $\alpha$ 和 $\beta$ 分别取值为1.0和10。

对于 $L_s$ 和 $L_b$ 采用二值交叉熵(BCE)求解
$L_s = L_b = \sum_{i \in S_i} y_i log x_i + (1 - y_i)log(1 - x_i)$
式中 $S_l$ 是经过采样的数据集，正样本与负样本的比值为1：3。

对于 $L_t$ 使用的是L1 loss
$L_t = \sum_{i\in R_d}|y^*_i - x^*_i|$
式中 $R_d$ 指的是标注框经过D偏移量扩充后得到的 $G_d$ 里的所有像素； $y^*_i$ 是3.2节计算出来的阈值图的label。

推断

在推断阶段，可以使用概率图也可以使用近似的二值图来生成文本区域。为了更加的高效，只使用概率图就可以了。

文本区域的生成有如下几步：

在概率图或者近似的二值图使用值为0.2的阈值得到二值图
通过上述得到的二值图获取文本的连通区域
利用偏移量 $D^{'}$ 将连通区域放大就得到了文本区域

上述 $D^{'}$ 的计算方法如下
$\frac{A' \times r'}{ L' }$
式中， $A^{'}$ 表示2步骤连通区域的面积， $L^{'}$ 是2步骤连通区域多边形的周长， $r^{'}$ 设为1.5。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 补题(2022东北四省选拔赛)
下一篇 > 人体最佳生物钟

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce