当前位置： ag凯发k8国际 > 人工智能 > 目标检测 >内容正文

目标检测

深度学习和目标检测系列教程 1-ag凯发k8国际

发布时间：2024/10/8 目标检测 0 豆豆

ag凯发k8国际收集整理的这篇文章主要介绍了深度学习和目标检测系列教程 1-300：什么是对象检测和常见的8 种基础目标检测算法小编觉得挺不错的,现在分享给大家,帮大家做个参考.

@author：runsen

由于毕业入了cv的坑，在内卷的条件下，我只好把别人卷走。

对象检测是一种计算机视觉技术，用于定位图像或视频中的对象实例。对象检测算法通常利用机器学习或深度学习来产生有意义的结果。当人类查看图像或视频时，我们可以在瞬间识别和定位感兴趣的对象。对象检测的目标是使用计算机复制这种智能。

比如，物体检测是高级驾驶辅助系统 (adas) 背后的一项关键技术，它使汽车能够检测行驶车道或执行行人检测以提高道路安全。对象检测在视频监控或图像检索系统等应用中也很有用。

在本文教程中，列出了必须知道的 8 种最佳目标检测算法。

fast r-cnn

用 python 和 c (caffe) 编写的 fast region-based convolutional network 方法或 fast r-cnn 是一种用于对象检测的训练算法。该算法主要修复了 r-cnn 和 sppnet 的缺点，同时提高了它们的速度和准确性。

fast r-cnn 的优点：

比 r-cnn、sppnet 更高的检测质量（map）
训练是单阶段的，使用多任务损失
训练可以更新所有网络层
特征缓存不需要磁盘存储

论文网址：http://openaccess.thecvf.com/content_iccv_2015/papers/girshick_fast_r-cnn_iccv_2015_paper.pdf

region-based convolutional neural networks (r-cnn)

基于区域的卷积网络方法 (rcnn) 是区域提议与卷积神经网络 (cnn) 的组合。r-cnn 有助于使用深度网络定位对象，并仅使用少量带注释的检测数据来训练高容量模型。它通过使用深度 convnet 对目标提议进行分类，从而实现了出色的目标检测精度。r-cnn 能够扩展到数千个对象类别，而无需求助于近似技术，包括散列。

rcnn论文：https://openaccess.thecvf.com/content_cvpr_2014/papers/girshick_rich_feature_hierarchies_2014_cvpr_paper.pdf

faster r-cnn

faster r-cnn 是一种类似于 r-cnn 的对象检测算法。该算法利用区域提议网络 (rpn)，该网络以比 r-cnn 和 fast r-cnn 更具成本效益的方式与检测网络共享全图像卷积特征。region proposal network 基本上是一个全卷积网络，它同时预测对象边界以及对象每个位置的 objectness 分数，并经过端到端训练以生成高质量的区域提议，然后由 fast r 使用-cnn 用于检测物体

论文地址：http://papers.nips.cc/paper/5638-faster-r-cnn-towards-real-time-object-detection-with-region-proposal-networks.pdf

histogram of oriented gradients (hog)

定向梯度直方图 (hog) 基本上是一种特征描述符，用于检测图像处理和其他计算机视觉技术中的对象。定向梯度直方图描述符技术包括在图像的局部部分（例如检测窗口、感兴趣区域 (roi) 等）中出现的梯度定向。类似 hog 的特征的一个优点是它们的简单性，并且更容易理解它们携带的信息。

详情：https://software.intel.com/content/www/us/en/develop/documentation/ipp-dev-reference/top/volume-2-image-processing/computer-vision/feature-detection-functions/histogram-of-oriented-gradients-hog-descriptor.html

region-based fully convolutional network (r-fcn)

基于区域的全卷积网络或 r-fcn 是一种用于对象检测的基于区域的检测器。与其他应用昂贵的按区域子网络（例如 fast r-cnn 或 faster r-cnn）的基于区域的检测器不同，这种基于区域的检测器是完全卷积的，几乎所有计算都在整个图像上共享。

r-fcn 由共享的、完全卷积的架构组成，就像 fcn 的情况一样，已知它比 faster r-cnn 产生更好的结果。在该算法中，所有可学习的权重层都是卷积层，旨在将 roi 分类为对象类别和背景。

论文地址：https://arxiv.org/pdf/1605.06409.pdf

single shot detector (ssd)

single shot detector (ssd) 是一种使用单个深度神经网络检测图像中对象的方法。ssd 方法将边界框的输出空间离散为一组不同纵横比的默认框。离散化后，该方法按特征图位置进行缩放。single shot detector 网络结合了来自具有不同分辨率的多个特征图的预测，以自然地处理各种大小的对象。

ssd的优点：

ssd 完全消除了提议生成和后续像素或特征重采样阶段，并将所有计算封装在单个网络中。
易于训练并直接集成到需要检测组件的系统中。
ssd 与使用额外对象提议步骤的方法相比具有竞争性的准确性，并且在为训练和推理提供统一框架的同时速度要快得多。

论文地址：https://arxiv.org/pdf/1512.02325.pdf）

spatial pyramid pooling (spp-net)

空间金字塔池（spp-net）是一种网络结构，无论图像大小/比例如何，都可以生成固定长度的表示。据说金字塔池化对对象变形具有鲁棒性，spp-net 改进了所有基于 cnn 的图像分类方法。使用 spp-net，研究人员只需从整个图像计算一次特征图，然后将任意区域（子图像）中的特征池化以生成用于训练检测器的固定长度表示。这种方法避免了重复计算卷积特征。

论文地址：https://arxiv.org/pdf/1406.4729.pdf)ì ˜

yolo

you only look once 或 yolo 是全球研究人员使用的对象检测中的流行算法之一。据 facebook ai research 的研究人员称，yolo 的统一架构在方式上非常快。基础 yolo 模型以每秒 45 帧的速度实时处理图像，而较小版本的网络 fast yolo 每秒处理惊人的 155 帧，同时仍实现了其他实时检测器的两倍 map。当从自然图像推广到其他领域（如艺术品）时，该算法优于其他检测方法，包括 dpm 和 r-cnn。’

论文地址：https://www.cv-foundation.org/openaccess/content_cvpr_2016/papers/redmon_you_only_look_cvpr_2016_paper.pdf

在完成目标检测任务，一般有两种方法：

创建和训练自定义对象检测器。要从头开始训练自定义对象检测器，需要设计一个网络架构来学习感兴趣对象的特征。还需要编译一组非常大的标记数据来训练 cnn。自定义对象检测器的结果可能非常显着。也就是说，需要在 cnn 中手动设置层和权重，这需要大量时间和训练数据。
使用预训练的对象检测器。许多使用深度学习的对象检测工作流利用迁移学习，这种方法使能够从预训练的网络开始，然后针对应用程序对其进行微调。这种方法可以提供更快的结果，因为对象检测器已经在数千甚至数百万张图像上进行了训练。

总结

以上是ag凯发k8国际为你收集整理的深度学习和目标检测系列教程 1-300：什么是对象检测和常见的8 种基础目标检测算法的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得ag凯发k8国际网站内容还不错，欢迎将ag凯发k8国际推荐给好友。

上一篇：
下一篇：深度学习和目标检测系列教程 2-300：