Relation Networks for Object Detection
-
文章提出了一种attention机制,建模了二阶段检测的目标间的relation,并且可以替代掉nms策略从而构造一个真正的end-to-end的目标检测框架,并自称是首个(因为其他deep learning 目标检测需要借助nms做后处理);并且改框架是inplace的(可以直接插入任何一个二阶段检测网络)
-
网络效果,在几个二阶段检测框架上AP基本都能提高2-3个点
-
首先回顾了一种attention机制:
-
具体的公式推导我就不说了,这里把用于定位的特征和用于分类的特征分开处理得到attention map,用了很复杂的公式,具体自己看论文,至于为什么是这么复杂的公式,是因为这个attention是从NLP中迁移来的,所以要照着NLP中的公式,然而这毕竟是图片,因此变得很复杂:
-
。。。 -
这个object relation module是inplace操作,因此可以插在任何框架上
-
可以插在分类的fc层后面,提高识别能力
-
还可以利用它来进行重复框的筛除