欢迎访问 生活随笔!

ag凯发k8国际

当前位置: ag凯发k8国际 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

google论文解读:轻量化卷积神经网络mobilenetv2 | paperdaily #38 -ag凯发k8国际

发布时间:2024/10/8 卷积神经网络 0 豆豆
ag凯发k8国际 收集整理的这篇文章主要介绍了 google论文解读:轻量化卷积神经网络mobilenetv2 | paperdaily #38 小编觉得挺不错的,现在分享给大家,帮大家做个参考.




在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。


在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 ai 前沿成果。


点击本文底部的「阅读原文」即刻加入社区,查看更多最新论文推荐。

这是 paperdaily 的第 38 篇文章

本期推荐的论文笔记来自 paperweekly 社区用户 @chenhong

本文是 google 团队在 mobilenet 基础上提出的 mobilenetv2,其同样是一个轻量化卷积神经网络。目标主要是在提升现有算法的精度的同时也提升速度,以便加速深度网络在移动端的应用。

如果你对本文工作感兴趣,点击底部的阅读原文即可查看原论文。


■ 论文 | inverted residuals and linear bottlenecks: mobile networks forclassification, detection and segmentation

■ 链接 | https://www.paperweekly.site/papers/1545

■ 源码 | https://github.com/randl/mobilenet2-pytorch/



很多轻量级的 cnn 模型已经在便携移动设备应用(如手机):mobilenet、shufflenet 等,但是效果差强人意。


本文是 google 团队在 mobilenet 基础上提出的 mobilenetv2,实现分类/目标检测/语义分割多目标任务:以 mobilenetv2 为基础设计目标检测模型 ssdlite(相比 ssd,yolov2 参数降低一个数量级,map 无显著变化),语义分割模型 mobile deeplabv3。 


mobilenetv2 结构基于 inverted residual。其本质是一个残差网络设计,传统 residual block 是 block 的两端 channel 通道数多,中间少,而本文设计的 inverted residual 是 block 的两端 channel 通道数少,block 内 channel 多,类似于沙漏和梭子形态的区别。另外保留 depthwise separable convolutions。


论文模型在 imagenet classification,coco object detection,voc image segmentation 等数据集上进行了验证,在精度、模型参数和计算时间之前取得平衡。



1. depthwise separable convolutions 


首先对每一个通道进行各自的卷积操作,有多少个通道就有多少个过滤器。得到新的通道 feature maps 之后,这时再对这批新的通道 feature maps 进行标准的 1×1 跨通道卷积操作。 


标准卷积操作计算复杂度,depthwise separable convolutions 计算复杂度,复杂度近似较少近似 k*k。


2. linear bottlenecks 


本篇文章最难理解的是这部分,论文中有两个结论: 


if the manifold of interest remains non-zero volume after relu transformation, it corresponds to a linear transformation. 


感兴趣区域在 relu 之后保持非零,近似认为是线性变换。 


relu is capable of preserving complete information about the input manifold, but only if the input manifold lies in a low-dimensional subspace of the input space. 


relu 能够保持输入信息的完整性,但仅限于输入特征位于输入空间的低维子空间中。 


对于低纬度空间处理,论文中把 relu 近似为线性转换。 


3. inverted residuals 


inverted residuals 可以认为是 residual block 的拓展。在 0



论文提出的 mobilenetv2 模型结构容易理解,基本单元 bottleneck 就是 inverted residuals 模块,所用到的 tricks 比如 dwise,就是 depthwise separable convolutions,即各通道分别卷积。表 3 所示的分类网络结构输入图像分辨率 224x224,输出是全卷积而非 softmax,k 就是识别目标的类别数目。 


1. mobilenetv2 


mobilenetv2 的网络结构中,第 6 行 stride=2,会导致下面通道分辨率变成14x14,从表格看,这个一处应该有误。



2. mobilenetv1、mobilenetv2 和 resnet 微结构对比



可以看到 mobilenetv2 和 resnet 基本结构很相似。不过 resnet 是先降维(0.25 倍)、提特征、再升维。而 mobilenetv2 则是先升维(6 倍)、提特征、再降维。



1. imagenet classification 


表 3 在 imagenet 数据集对比了 mobilenetv1、shufflenet,mobilenetv2 三个模型的 top1 精度,params 和 cpu(google pixel 1 phone)执行时间。mobilenetv2 运行时间 149ms,参数 6.9m,top1 精度 74.7。 


在 imagenet 数据集,依 top-1 而论,比 resnet-34,vgg19 精度高,比 resnet-50 精度低。



2. object detection 


论文以 mobilenetv2 为基本分类网络,实现 mnet v2 ssdlite,耗时 200ms,map 22.1,参数只有 4.3m。相比之下,yolov2 map 21.6,参数50.7m。模型的精度比 ssd300 和 ssd512 略低。 


3. semantic segmentation 


当前 semantic segmentation 性能最高的架构是 deeplabv3,论文在 mobilenetv2 基础上实现 deeplabv3,同时与基于 resnet-101 的架构做对比,实验效果显示 mnet v2 miou 75.32,参数 2.11m,而 resnet-101 miou80.49,参数 58.16m,明显 mnet v2 在实时性方面具有优势。



cnn 在 cv 领域突破不断,但是在小型化性能方面却差强人意。目前 mobilenet、shufflenet 参数个位数(单位 m)在 imagenet 数据集,依 top-1 而论,比 resnet-34,vgg19 精度高,比 resnet-50 精度低。实时性和精度是一对欢喜冤家。 


本文最难理解的其实是 linear bottlenecks,论文中用很多公式表达这个思想,但是实现上非常简单,就是在 mobilenetv2 微结构中第二个 pw 后无 relu6。对于低维空间而言,进行线性映射会保存特征,而非线性映射会破坏特征。

本文由 ai 学术社区 paperweekly 精选推荐,社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向,点击「阅读原文」即刻加入社区!



# 榜 单 公 布 #


2017年度最值得读的ai论文 | nlp篇 · 评选结果公布

2017年度最值得读的ai论文 | cv篇 · 评选结果公布

           


关于paperweekly


paperweekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 ai 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 paperweekly 的交流群里。


▽ 点击 | 阅读原文 | 查看原论文

总结

以上是ag凯发k8国际为你收集整理的google论文解读:轻量化卷积神经网络mobilenetv2 | paperdaily #38的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得ag凯发k8国际网站内容还不错,欢迎将ag凯发k8国际推荐给好友。

  • 上一篇:
  • 下一篇:
网站地图