google论文解读:轻量化卷积神经网络mobilenetv2 | paperdaily #38 -ag凯发k8国际
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。
在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 ai 前沿成果。
点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。
这是 paperdaily 的第 38 篇文章本期推荐的论文笔记来自 paperweekly 社区用户 @chenhong。
本文是 google 团队在 mobilenet 基础上提出的 mobilenetv2,其同样是一个轻量化卷积神经网络。目标主要是在提升现有算法的精度的同时也提升速度,以便加速深度网络在移动端的应用。
如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。
■ 论文 | inverted residuals and linear bottlenecks: mobile networks forclassification, detection and segmentation
■ 链接 | https://www.paperweekly.site/papers/1545
■ 源码 | https://github.com/randl/mobilenet2-pytorch/
很多轻量级的 cnn 模型已经在便携移动设备应用(如手机):mobilenet、shufflenet 等,但是效果差强人意。
本文是 google 团队在 mobilenet 基础上提出的 mobilenetv2,实现分类/目标检测/语义分割多目标任务:以 mobilenetv2 为基础设计目标检测模型 ssdlite(相比 ssd,yolov2 参数降低一个数量级,map 无显著变化),语义分割模型 mobile deeplabv3。
mobilenetv2 结构基于 inverted residual。其本质是一个残差网络设计,传统 residual block 是 block 的两端 channel 通道数多,中间少,而本文设计的 inverted residual 是 block 的两端 channel 通道数少,block 内 channel 多,类似于沙漏和梭子形态的区别。另外保留 depthwise separable convolutions。
论文模型在 imagenet classification,coco object detection,voc image segmentation 等数据集上进行了验证,在精度、模型参数和计算时间之前取得平衡。
1. depthwise separable convolutions
首先对每一个通道进行各自的卷积操作,有多少个通道就有多少个过滤器。得到新的通道 feature maps 之后,这时再对这批新的通道 feature maps 进行标准的 1×1 跨通道卷积操作。
标准卷积操作计算复杂度,depthwise separable convolutions 计算复杂度,复杂度近似较少近似 k*k。
2. linear bottlenecks
本篇文章最难理解的是这部分,论文中有两个结论:
if the manifold of interest remains non-zero volume after relu transformation, it corresponds to a linear transformation.
感兴趣区域在 relu 之后保持非零,近似认为是线性变换。
relu is capable of preserving complete information about the input manifold, but only if the input manifold lies in a low-dimensional subspace of the input space.
relu 能够保持输入信息的完整性,但仅限于输入特征位于输入空间的低维子空间中。
对于低纬度空间处理,论文中把 relu 近似为线性转换。
3. inverted residuals
inverted residuals 可以认为是 residual block 的拓展。在 0
论文提出的 mobilenetv2 模型结构容易理解,基本单元 bottleneck 就是 inverted residuals 模块,所用到的 tricks 比如 dwise,就是 depthwise separable convolutions,即各通道分别卷积。表 3 所示的分类网络结构输入图像分辨率 224x224,输出是全卷积而非 softmax,k 就是识别目标的类别数目。
1. mobilenetv2
mobilenetv2 的网络结构中,第 6 行 stride=2,会导致下面通道分辨率变成14x14,从表格看,这个一处应该有误。
2. mobilenetv1、mobilenetv2 和 resnet 微结构对比
可以看到 mobilenetv2 和 resnet 基本结构很相似。不过 resnet 是先降维(0.25 倍)、提特征、再升维。而 mobilenetv2 则是先升维(6 倍)、提特征、再降维。
1. imagenet classification
表 3 在 imagenet 数据集对比了 mobilenetv1、shufflenet,mobilenetv2 三个模型的 top1 精度,params 和 cpu(google pixel 1 phone)执行时间。mobilenetv2 运行时间 149ms,参数 6.9m,top1 精度 74.7。
在 imagenet 数据集,依 top-1 而论,比 resnet-34,vgg19 精度高,比 resnet-50 精度低。
2. object detection
论文以 mobilenetv2 为基本分类网络,实现 mnet v2 ssdlite,耗时 200ms,map 22.1,参数只有 4.3m。相比之下,yolov2 map 21.6,参数50.7m。模型的精度比 ssd300 和 ssd512 略低。
3. semantic segmentation
当前 semantic segmentation 性能最高的架构是 deeplabv3,论文在 mobilenetv2 基础上实现 deeplabv3,同时与基于 resnet-101 的架构做对比,实验效果显示 mnet v2 miou 75.32,参数 2.11m,而 resnet-101 miou80.49,参数 58.16m,明显 mnet v2 在实时性方面具有优势。
cnn 在 cv 领域突破不断,但是在小型化性能方面却差强人意。目前 mobilenet、shufflenet 参数个位数(单位 m)在 imagenet 数据集,依 top-1 而论,比 resnet-34,vgg19 精度高,比 resnet-50 精度低。实时性和精度是一对欢喜冤家。
本文最难理解的其实是 linear bottlenecks,论文中用很多公式表达这个思想,但是实现上非常简单,就是在 mobilenetv2 微结构中第二个 pw 后无 relu6。对于低维空间而言,进行线性映射会保存特征,而非线性映射会破坏特征。
本文由 ai 学术社区 paperweekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!
# 榜 单 公 布 #
2017年度最值得读的ai论文 | nlp篇 · 评选结果公布
2017年度最值得读的ai论文 | cv篇 · 评选结果公布
关于paperweekly
paperweekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 ai 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 paperweekly 的交流群里。
▽ 点击 | 阅读原文 | 查看原论文
总结
以上是ag凯发k8国际为你收集整理的google论文解读:轻量化卷积神经网络mobilenetv2 | paperdaily #38的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: