深度学习和目标检测系列教程 5-ag凯发k8国际
@author:runsen
最早期的目标检测基于rcnn的算法,下面介绍rcnn的架构
rcnn架构
r-cnn 的目标是获取图像,并正确识别图片中的主要对象(通过边界框)的位置。
- 输入:图像;
- 输出:图像中每个对象的边界框和标签。
r-cnn检测系统由三个模块组成。
- 第一个生成与类别无关的区域候选框。这些候选框识别图像中存在的候选检测集。
- 第二个模块是一个深度卷积神经网络,从每个区域提取一个特征向量。
- 第三个模块是一组特定于类的分类器,即线性 svm。
r-cnn 也做了我们可能直觉上做的事情——在图像中提出一堆框,看看它们中是否有任何一个对应于一个对象。r-cnn 使用称为selective search的过程创建这些边界框或区域提议 。
在高层次上,选择性搜索(如下图 所示)通过不同大小的窗口查看图像,并针对每种大小尝试按纹理、颜色或强度对相邻像素进行分组以识别对象。
候选框一经创建,r-cnn 就将该区域封闭为标准正方形大小,并将其传递给 alexnet 的修改版本。在 cnn 的最后一层,r-cnn 添加了一个支持向量机 (svm),可以对这是否是一个对象以及如果是什么对象进行分类。这是上图中的第 4 步。
- alexnet是卷积神经网络 (cnn) 架构的名称,由 alex krizhevsky 与 ilya sutskever 和 geoffrey hinton 合作设计
改进边界框
在盒子中创建物体后,我们可以收紧盒子以使物体适合其真实尺寸。这是r-cnn的最后一步。r-cnn 对区域提议运行简单的线性回归以生成边界框坐标以获得最终结果。这个回归模型的输入和输出是:
- 输入:与对象对应的图像子区域。
- 输出:子区域中对象的新边界框坐标。
所以,总而言之,r-cnn 是以下步骤:
- 为边界框生成一组区域候选框。
- 通过预训练的 alexnet 和 svm 运行边界框中的图像,以查看框中的图像是什么对象。
- 一旦对象被分类,通过线性回归模型运行框以输出更紧密的框坐标。
rcnn训练网络所需的时间非常长,因为网络必须对每张图像 2000 个区域提议进行分类。它无法实时实现,因为每个测试图像需要大约 47 秒。特定的搜索算法是固定算法。因此,在那个阶段没有发生任何学习。这会导致产生不良区域的建议。
下面是rcnn架构实现的具体代码:
- tensorflow : https://github.com/rbgirshick/rcnn
- keras : https://github.com/broadinstitute/keras-rcnn
result
r-cnn 提供了最先进的结果。以前的系统是复杂的集成,将多个低级图像特征与来自对象检测器和场景分类器的高级上下文相结合。r-cnn 提出了一种简单且可扩展的对象检测算法,与之前在 ilsvrc2013 上的最佳结果相比,相对提高了 30%。
r-cnn 通过两个见解实现了这一性能。
- 首先是将大容量卷积神经网络应用于自下而上的区域建议以定位和分割对象。
- 第二种是在训练数据标签稀缺时训练大型 cnn。
r-cnn 结果表明,在监督下预训练网络非常有用。
总结
以上是ag凯发k8国际为你收集整理的深度学习和目标检测系列教程 5-300:早期的目标检测rcnn架构的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇:
- 下一篇: