当前位置： ag凯发k8国际 > 人工智能 > 卷积神经网络 >内容正文

卷积神经网络

google论文解读：轻量化卷积神经网络mobilenetv2 | paperdaily #38 -ag凯发k8国际

发布时间：2024/10/8 卷积神经网络 0 豆豆

ag凯发k8国际收集整理的这篇文章主要介绍了 google论文解读：轻量化卷积神经网络mobilenetv2 | paperdaily #38 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

在碎片化阅读充斥眼球的时代，越来越少的人会去关注每篇论文背后的探索和思考。

在这个栏目里，你会快速 get 每篇精选论文的亮点和痛点，时刻紧跟 ai 前沿成果。

点击本文底部的「阅读原文」即刻加入社区，查看更多最新论文推荐。

这是 paperdaily 的第 38 篇文章

本期推荐的论文笔记来自 paperweekly 社区用户 @chenhong。

本文是 google 团队在 mobilenet 基础上提出的 mobilenetv2，其同样是一个轻量化卷积神经网络。目标主要是在提升现有算法的精度的同时也提升速度，以便加速深度网络在移动端的应用。

如果你对本文工作感兴趣，点击底部的阅读原文即可查看原论文。

■ 论文 | inverted residuals and linear bottlenecks: mobile networks forclassification, detection and segmentation

■ 链接 | https://www.paperweekly.site/papers/1545

■ 源码 | https://github.com/randl/mobilenet2-pytorch/

很多轻量级的 cnn 模型已经在便携移动设备应用（如手机）：mobilenet、shufflenet 等，但是效果差强人意。

本文是 google 团队在 mobilenet 基础上提出的 mobilenetv2，实现分类/目标检测/语义分割多目标任务：以 mobilenetv2 为基础设计目标检测模型 ssdlite（相比 ssd，yolov2 参数降低一个数量级，map 无显著变化），语义分割模型 mobile deeplabv3。

mobilenetv2 结构基于 inverted residual。其本质是一个残差网络设计，传统 residual block 是 block 的两端 channel 通道数多，中间少，而本文设计的 inverted residual 是 block 的两端 channel 通道数少，block 内 channel 多，类似于沙漏和梭子形态的区别。另外保留 depthwise separable convolutions。

论文模型在 imagenet classification，coco object detection，voc image segmentation 等数据集上进行了验证，在精度、模型参数和计算时间之前取得平衡。

1. depthwise separable convolutions

首先对每一个通道进行各自的卷积操作，有多少个通道就有多少个过滤器。得到新的通道 feature maps 之后，这时再对这批新的通道 feature maps 进行标准的 1×1 跨通道卷积操作。

标准卷积操作计算复杂度，depthwise separable convolutions 计算复杂度，复杂度近似较少近似 k*k。

2. linear bottlenecks

本篇文章最难理解的是这部分，论文中有两个结论：

if the manifold of interest remains non-zero volume after relu transformation, it corresponds to a linear transformation.

感兴趣区域在 relu 之后保持非零，近似认为是线性变换。

relu is capable of preserving complete information about the input manifold, but only if the input manifold lies in a low-dimensional subspace of the input space.

relu 能够保持输入信息的完整性，但仅限于输入特征位于输入空间的低维子空间中。

对于低纬度空间处理，论文中把 relu 近似为线性转换。

3. inverted residuals

inverted residuals 可以认为是 residual block 的拓展。在 0

论文提出的 mobilenetv2 模型结构容易理解，基本单元 bottleneck 就是 inverted residuals 模块，所用到的 tricks 比如 dwise，就是 depthwise separable convolutions，即各通道分别卷积。表 3 所示的分类网络结构输入图像分辨率 224x224，输出是全卷积而非 softmax，k 就是识别目标的类别数目。

1. mobilenetv2

mobilenetv2 的网络结构中，第 6 行 stride=2，会导致下面通道分辨率变成14x14，从表格看，这个一处应该有误。

2. mobilenetv1、mobilenetv2 和 resnet 微结构对比

可以看到 mobilenetv2 和 resnet 基本结构很相似。不过 resnet 是先降维（0.25 倍）、提特征、再升维。而 mobilenetv2 则是先升维（6 倍）、提特征、再降维。

1. imagenet classification

表 3 在 imagenet 数据集对比了 mobilenetv1、shufflenet，mobilenetv2 三个模型的 top1 精度，params 和 cpu（google pixel 1 phone）执行时间。mobilenetv2 运行时间 149ms，参数 6.9m，top1 精度 74.7。

在 imagenet 数据集，依 top-1 而论，比 resnet-34，vgg19 精度高，比 resnet-50 精度低。

2. object detection

论文以 mobilenetv2 为基本分类网络，实现 mnet v2 ssdlite，耗时 200ms，map 22.1，参数只有 4.3m。相比之下，yolov2 map 21.6，参数50.7m。模型的精度比 ssd300 和 ssd512 略低。

3. semantic segmentation

当前 semantic segmentation 性能最高的架构是 deeplabv3，论文在 mobilenetv2 基础上实现 deeplabv3，同时与基于 resnet-101 的架构做对比，实验效果显示 mnet v2 miou 75.32，参数 2.11m，而 resnet-101 miou80.49，参数 58.16m，明显 mnet v2 在实时性方面具有优势。

cnn 在 cv 领域突破不断，但是在小型化性能方面却差强人意。目前 mobilenet、shufflenet 参数个位数（单位 m）在 imagenet 数据集，依 top-1 而论，比 resnet-34，vgg19 精度高，比 resnet-50 精度低。实时性和精度是一对欢喜冤家。

本文最难理解的其实是 linear bottlenecks，论文中用很多公式表达这个思想，但是实现上非常简单，就是在 mobilenetv2 微结构中第二个 pw 后无 relu6。对于低维空间而言，进行线性映射会保存特征，而非线性映射会破坏特征。

本文由 ai 学术社区 paperweekly 精选推荐，社区目前已覆盖自然语言处理、计算机视觉、人工智能、机器学习、数据挖掘和信息检索等研究方向，点击「阅读原文」即刻加入社区！

# 榜单公布 #

2017年度最值得读的ai论文 | nlp篇 · 评选结果公布

2017年度最值得读的ai论文 | cv篇 · 评选结果公布

关于paperweekly

paperweekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 ai 领域，欢迎在公众号后台点击「交流群」，小助手将把你带入 paperweekly 的交流群里。

▽ 点击 | 阅读原文 | 查看原论文

总结

以上是ag凯发k8国际为你收集整理的google论文解读：轻量化卷积神经网络mobilenetv2 | paperdaily #38的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得ag凯发k8国际网站内容还不错，欢迎将ag凯发k8国际推荐给好友。