cvpr 2020 | 港中文提出3d目标检测新框架dsgn -ag凯发k8国际
©paperweekly 原创 · 作者|张承灏
学校|中科院自动化所硕士生
研究方向|双目深度估计
本文介绍的是香港中文大学贾佳亚团队在 cvpr 2020 上提出的 3d 目标检测新框架——深度立体几何网络(deep stereo geometry network,dsgn)。
通过构造一种可导的 3d 几何体来实现 3d 目标检测,从而减小了基于图像的方法和基于 lidar 的方法之间的鸿沟。这是第一个一阶段的,基于双目的 3d 目标检测器,在 kitti 3d 目标检测榜单上超越以往基于双目的 3d 目标检测方法。
论文标题:dsgn: deep stereo geometry network for 3d object detection
论文地址:https://arxiv.org/abs/2001.03398
开源代码:https://github.com/chenyilun95/dsgn
背景
根据特征的表示方法不同,3d 目标检测器主要分为基于图像的 3d 检测器和基于 lidar 的 3d 检测器。
基于 lirad 的 3d 检测器:主要分为基于体素的方法和基于点云的方法;
基于图像的 3d 检测器:主要分为基于深度估计的方法和基于 3d 特征的方法;
由于 lidar 传感器能够捕捉准确的 3d 信息,因此基于 lidar 的 3d 检测器准确率较高。其不足之处在于 lidar 设备笨重且价格昂贵,得到是带有激光束的稀疏分辨率的数据。
相比之下,视频摄像机要便宜很多,并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计,但是准确率仍然无法与基于 lidar 的方法相媲美。
基于深度估计的方法将 3d 目标检测分为两步:深度估计和目标检测,这其中最大的挑战在于 2d 网络并不能提取到稳定的 3d 信息。
另一种方案是先利用深度估计产生中间伪点云,再利用基于 lidar 的 3d 目标检测方法。但是这种方法中的变换是不可导的,并且需要多个独立的网络,还容易出现失真现象。
dsgn 是一种基于双目深度估计的,端到端的 3d 目标检测框架,其核心在于通过空间变换将 2d 特征转换成有效的 3d 结构。论文的主要贡献如下:
为了弥补 2d 图像和 3d 空间的鸿沟,作者利用立体匹配构建平面扫描体(plane-sweep volume,psv),并将其转换成 3d 几何体(3d geometric volume,3dgv),以便能够编码 3d 几何形状和语义信息。
作者设计了一个端到端的框架,以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的 dsgn 能同时估计场景深度并检测 3d 目标,从而实现多种实际应用。
作者提出的简单且完全可导的网络在 kitti 排行榜上超越所有其他基于双目深度估计的 3d 目标检测器(ap 高出 10 个点)。
方法
上图展示了 dsgn 的整体框架图。将双目图像对 作为输入,利用权重共享的孪生网络提取特征,并构建一个平面扫描体(psv),它可以学习逐像素的对应关系。
接着通过可导的 warping 操作,将 psv 转换为 3d 几何体(3dgv),从而构建 3d 世界坐标系的 3d 几何特征。最后利用 3d 卷积网络作用于 3dgv 进行 3d 目标检测。
2.1 特征提取
作者借鉴 psmnet [1] 的特征提取器作为深度估计和 3d 目标检测的共享特征提取网络。为了提取更多的高层次特征,并且减少计算量,主要进行了以下改动:
将更多的计算从 conv_3 转到 conv_4 和 conv_5,比如从 conv_2 到 conv_5 的基本模块的通道数从 {3,16,3,3} 变成 {3,6,12,4}。
psmnet 中的 spp 模块增加了 conv_4 和 conv_5。
conv_1 的输出通道数和残差模块的输出通道数有所改变。
详细的网络结构可参考论文中的附录部分。
2.2 构建3dgv
论文的核心是如何构建带有 3d 几何特征的 3dgv,它是由 psv 经过 warping 操作转换得到。3dgv 可以看做是 3d 世界坐标系的 3d 体素网格,它的大小是 ,分别沿摄像机视角的右方,下方和前方。每个体素的大小是 。
2.3 plane-sweep volume
在双目立体匹配中,一对左右图像 用来构造基于视差的匹配代价体(cost volume),它计算了左右图像的像素点在水平方向上的位移是视差 的匹配代价。
根据基于 cost volume 的立体匹配方法,连接左右图特征构造 psv,它的坐标表示为 ,其中 表示图像上在该位置的像素点, 表示垂直于图像平面的深度信息。那么 空间可以被称为相机坐标系。
之后利用 3d hourglass 网络进行代价聚合。对于视差/深度估计,利用可导的 soft argmin 操作来计算所有概率为 的深度候选值的期望:
其中深度的候选值在间隔为 的预定义网格(即 ,)内均匀采样。再利用 softmax 函数使得模型为每个像素点只选择一个深度值,从而完成深度估计。
2.4 3d geometric volume
有了照相机坐标,在已知摄像机内参的情况下,可以利用相机投影矩阵 实现从世界坐标系到相机坐标系的转换。假设世界坐标系表示为 ,而前面的相机坐标表示为 ,经典的转换方法是从世界坐标系到相机坐标系:
而现在psv的最后一层特征作为已知的相机坐标系,要想得到世界坐标系,因此需要使用相机投影矩阵的逆矩阵 。
其中 和 分别是水平方向和竖直方向的焦距, 和 是相机位姿参数。该操作是完全可导的,可以利用三线性差值的 warp 操作实现。
2.5 3d目标检测器
对于 3d 目标检测网络部分,作者借鉴 anchor-free 的方法 fcos [2] 中的centerness思想,设计了一种基于距离的策略来分配目标,同时也继续保持anchor。
具体来说,令 3dgv 中的特征图大小为 ,经过逐步下采样操作,得到用于鸟瞰视角的特征图 ,其大小为 。
对于 中的每一个位置 ,放置几个不同方向和大小的anchor。假设anchors用 表示,而gt目标框用 表示,那么它们的位置,预设大小和方向定义如下:
anchors:
gt:
预测值:
其中 是 anchor 方向的数量, 是每个参数学习的偏置。
沿用 fcos 中的 centerness 思想,作者利用 anchor 和 gt 在 8 个角上的坐标距离作为目标分配的策略:
将与 gt 最近的 n 个样本作为正样本,其中 , 是 gt 中体素的个数,而 用来调整正样本的个数。最终的 centerness 定义如下:
其中的范数表示最小-最大归一化。
2.6 多任务训练
dsgn 的整个网络同时进行双目深度估计和 3d 目标检测,因此是一个多任务训练过程,整体 loss 如下:
对于深度估计,采用 smooth l1 loss, 是 gt 中的有效像素点,
对于 3d 目标检测的分类任务,采用 focal loss 避免样本不平衡的缺陷, 是正样本的个数,对于 centerness 采用 bce loss。
对于 3d 目标检测的回归任务,采用 smooth l1 loss 进行回归,
实验
作者在 kitti 3d 目标检测数据集上进行实验评测,该数据集包含 7481 张训练图像对和 7518 张测试图像对,分为 car, pedestrian 和 cyclist 三种类型。下面是在测试集上的主要结果:
从表中可以看出,对于 3d 和 bev(bird's eye view)目标检测,dsgn 超越了所有基于图像的 3d 目标检测器;在 2d 检测上,也仅仅比 3dop 要差一点。
值得一提的是,dsgn 首次得到了与基于 lidar 的目标检测器 mv3d 相当的准确率,该结果证明至少在低速自动驾驶条件下是有应用前景的。这些都验证了 3dgv 的有效性,表明 3dgv 构建了 2d 图像和 3d 空间的桥梁。
作者将训练集分成一半训练集,一半验证集进行消融分析,下面是消融实验的结果:
从上表中可以得到以下几个结论:
点云的监督是很重要的。有点云监督的结果要大大优于没有监督的情况。
在有点云监督的情况下,基于双目的方法要远远优于基于单目的方法。再次证明仅仅有 3d 检测框的监督信息是不充分的,基于双目的深度信息对于 3d 检测相当重要。
psv 对于 3d 结构是一种更合适的特征表示。pscv 相比于 cv 的不同在于从相机坐标系到世界坐标系的转换,对于 3d 检测 ap 从 45.89 提升到 54.27。
psv 作为一种中间编码方式能更有效地包含深度信息,因为它是深度估计网络的中间特征。
讨论和总结
stereo rcnn [3] 是 cvpr 2019 的 3d 目标检测器,它是通过扩展 faster rcnn,以双目图像作为输入的端到端 3d 检测器。我们可以通过比较 dsgn 和 stereo rcnn 的不同之处来更好的理解 dsgn。
dsgn 是 one-stage 的目标检测器,而 stereo rcnn 是 two-stage 的。
dsgn 利用了深度点云信息作为深度估计网络的监督,从而实现深度估计和3d目标检测的多任务学习,而 stereo rcnn 仅有 3d 检测框的监督信息。这种点云监督信息使得dsgn中的 psv 成为更好的特征表示,这可能是 dsgn 性能大大提升的根本所在。
从目标检测的角度看,二者都采用了 anchor,不过 dsgn 借鉴了 anchor-free 的 centerness 思想,使得检测性能更优。
参考文献
[1] jia-ren chang and yong-sheng chen. pyramid stereo matching network. in cvpr, pages 5410–5418, 2018.
[2] zhi tian, chunhua shen, hao chen, and tong he. fcos: fully convolutional one-stage object detection. 2019.
[3] peiliang li, xiaozhi chen, and shaojie shen. stereo r-cnn based 3d object detection for autonomous driving. in cvpr, pages 7644–7652, 2019.
点击以下标题查看更多往期内容:
变分推断(variational inference)最新进展简述
变分自编码器vae:原来是这么一回事
图神经网络三剑客:gcn、gat与graphsage
如何快速理解马尔科夫链蒙特卡洛法?
深度学习预训练模型可解释性概览
iclr 2020:从去噪自编码器到生成模型
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。paperweekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
paperweekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
???? 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名 学校/工作单位 学历/职位 研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• paperweekly 默认每篇文章都是首发,均会添加“原创”标志
???? 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时ag凯发k8国际的联系方式(微信或手机),以便我们在编辑发布时和作者沟通
????
现在,在「知乎」也能找到我们了
进入知乎ag凯发k8国际首页搜索「paperweekly」
点击「关注」订阅我们的专栏吧
关于paperweekly
paperweekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 ai 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 paperweekly 的交流群里。
总结
以上是ag凯发k8国际为你收集整理的cvpr 2020 | 港中文提出3d目标检测新框架dsgn的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: