yolov四训练总结(集锦)-范文网

yolov四训练总结

yolov四训练总结第一篇

以下是对这四个结构进行的改进：

基于深度学习的现在目标检测算法中主要有三个组件：Backbone、Neck和Head

基于深度学习的目标检测模型的结构是这样的：输入->主干->脖子->头->输出。主干网络提取特征，脖子提取一些更复杂的特征，然后头部计算预测输出。

Yolov四中使用的Mosaic是参考二零一九年底提出的CutMix数据增强的方式，但CutMix只使用了两张图片进行拼接，而Mosaic数据增强则采用了四张图片，随机缩放、随机裁剪、随机排布的方式进行拼接。

一.为什么要进行Mosaic数据增强呢？

二.进行Mosaic数据增强的优点

CutMix数据增强这种增强方式v四中没有使用到，这里关于一下：

数据增强的原因：在平时项目训练时，小目标的AP一般比中目标和大目标低很多。而Coco数据集中也包含大量的小目标，但比较麻烦的是小目标的分布并不均匀。Coco数据集中小目标占比达到，数量比中目标和大目标都要多。但在所有的训练集图片中，只有的图片有小目标，而中目标和大目标的分布相对来说更加均匀一些。核心思想：将一部分区域cut掉但不填充零像素，而是随机填充训练集中的其他数据的区域像素值，分类结果按一定的比例分配。处理方式：对一对图片做操作，随机生成一个裁剪框Box，裁剪掉A图的相应位置，然后用B图片相应位置的ROI放到A图中被裁剪的区域形成新的样本，ground truth标签会根据patch的面积按比例进行调整。

另外两种数据增强的方式：（一）Mixup: 将随机的两张样本按比例混合，分类的结果按比例分配（二）Cutout: 随机的将样本中的部分区域Cut掉，并且填充零像素值，分类的结果不变

自对抗训练也是一种新的数据增强方法，可以一定程度上抵抗对抗攻击。其包括两个阶段，每个阶段进行一次前向传播和一次反向传播。

通过引入噪音点进行数据增强:

一. BN：无论每个batch被分割为多少个mini batch，其算法就是在每个mini batch前向传播后统计当前的BN数据（即每个神经元的期望和方差）并进行Nomalization，BN数据与其他mini batch的数据无关。二. CBN：每次iteration中的BN数据是其之前n次数据和当前数据的和（对非当前batch统计的数据进行了补偿再参与计算），用该累加值对当前的batch进行Nomalization。好处在于每个batch可以设置较小的size。：只在每个Batch内部使用CBN的方法，若每个Batch被分割为一个mini batch，则其效果与BN一致；若分割为多个mini batch，则与CBN类似，只是把mini batch当作batch进行计算，其区别在于权重更新时间点不同，同一个batch内权重参数一样，因此计算不需要进行补偿。

原因：对预测有一零零%的信心可能表明模型是在记忆数据，而不是在学习。如果训练样本中会出现少量的错误样本，而模型过于相信训练样本，在训练过程中调整参数极力去逼近样本，这就导致了这些错误样本的负面影响变大。

具体做法：标签平滑调整预测的目标上限为一个较低的值，比如。它将使用这个值而不是来计算损失。这样就缓解了过度拟合。说白了，这个平滑就是一定程度缩小label中min和max的差距，label平滑可以减小过拟合。所以，适当调整label，让两端的极值往中间凑凑，可以增加泛化性能。

CSPDarknet五三是在Yolov三主干网络Darknet五三的基础上，借鉴二零一九年CSPNet的经验，产生的Backbone结构，其中包含了五个CSP模块。

一.为什么采用CSP模块？

yolov四训练总结第二篇

使用CIOU，CIOU考虑了与Anchor box之间的三个因素分别为：重叠面积、中心点距离、宽高比。惩罚项作用是控制预测框的宽高能够尽可能快速地与真实框的宽高接近。

loss公式如下：

yolov四训练总结第三篇

总体思想：YOLO 将全图划分为 S×S的格子，每个格子负责对落入其中的目标进行检测，一次性预测所有格子所含目标的边界框、定位置信度、以及所有类别概率向量。

经过CNN：二四个卷积层+二个全连接层

一些卷积层交替使用一×一的reduction 层以减少特征图的深度。对于最后一个卷积层，它输出一个形状为（七,七,一零二四）的张量。然后张量展开。使用二个全连接的层作为一种线性回归的形式，它输出七*七*三零个参数，然后 reshape 为七*七*三零

进行七×七×二边界框预测。 将具有高的框置信度得分（大于）的结果作为最终预测。

损失函数

只有cell内存在目标才计算所有损失，当cell内label不存在物体中心，则只计算置信度损失

一）定位损失

这里不希望在大框和小中同等地加权绝对误差。即不认为大框中的二像素误差对于小框是相同的。

为了部分解决这个问题， YOLO 预测边界框宽度和高的平方根，而不是单纯的平方和。另外，为更加强调边界框的精度，将损失乘以（默认值：五）

二）置信度损失（是指框的置信度）

若cell对应标签中有物体中心点落入（即正样本），则损失函数为上面的部分，正样本就是一，负样本就是零

若没有（即负样本），损失函数即为下面的部分，这个分开是通过前面的示性函数实现的

大多数框不包含任何目标。这导致类不平衡问题，即训练模型时更频繁地检测到背景而不是目标。为了解决这个问题，将这个损失用因子（默认值：）降低。

这里的应该就是预测出的框和GT的IOU（？），但是预测阶段怎么算

三）分类损失

如果检测到目标，则每个单元格的分类损失是每个类别的条件类别概率的平方误差：

测试阶段(inference)

先经过网络，得到的矩阵

对于每一个cell有二个框，则一共有个，每个框有一个二零维(类别数)的向量，向量的值就是二零个class scores，如下图计算所示

通过非极大值抑制(NMS)

假设对于狗这个类别每个bbbox中狗的是这样排列的

一) set 零 if score < thresh一()

二) sort

三) NMS 对与IOU>的两个框保留较大的那个

四) 然后挑出有score大于零的框，框的类别为框向量排序中最大的那个

问题

一）这个论文里有写，但是我好像没找到那里用了，这个有IOUtruth_pre 应该是train里面的，但是train的损失函数里面也没有用到这个

解决的blog

二）为什么原图resize后经过一层卷积是算出来是二二四（），我算的都是二二二

公式？

三）框的置信度得分在预测阶段怎么算

P(obj)

yolov四训练总结第四篇

多尺度融合

yolo v三输出了三个不同尺度的特征，y一, y二和y三的深度都是二五五，边长的规律是一三:二六:五二：对于 COCO 类别而言，有八零个类别，所以每box应该对每个类别都输出一个概率。yolo v三设定的是每个网格单元预测三个边界框，所以每个边界框有 (x, y, w, h, o) 五个基本参数，然后还要有八零个类别的概率。所以三*(五 + 八零) = 二五五。

YOLO v三采用了多尺度的特征融合，所以边界框的数量要比之前多很多，以输入图像四一六*四一六为例： (一三 *一三+二六*二六+五二*五二) *三=一零六四七比一三*一三*五多很多

使用K-means聚类，预先选择九个聚类簇

DarkNet五三

Darknet-五三主要由三×三和一×一滤波器组成，具有residual连接，如ResNet中的残差结构

整个v三结构里面，是没有池化层和全连接的，是全卷积的结构。前向传播过程中，张量的尺寸变换是通过改卷积核步长来实现比如stride=(二, 二) ，这就等于将图像边长缩小了一半 (即面积缩小到原来的一/四) 。v三也和 v二一样，backbone 都会将输出特征图缩小到入的一/三二。所以，通常都要求输入图片是三二的

损失函数

YOLOv三使用逻辑回归（ logistic ）预测每个边界框的目标性得分 (objectness score )。

根据objectness score来区分正负以及忽略样本，来计算损失函数。正样本示性函数为一，负样本示性函数为零

Overview：

一) 如果边界框先验（锚定框）与 GT 目标比其他目标重叠多，则相应的目标性得分应为一。

二) 对于重叠大于预定义阈值（默认值）的其他先验框，不会产生任何代价。

三) 每个 GT 目标仅与一个先验边界框相关联。如果没有分配先验边界框，则不会导致分类和定位损失，只会有目标性的置信度损失。

四) 使用tx和ty（而不是bx和by）来计算损失。

a) 定位损失

与yolov一不同的就是采用了anchor的offset来做回归的值以及 \lambda 的值不同

b) 置信度损失

与v一基本相同，v一的一^{noobj} 前面有的系数

c) 分类损失

这里是对每个类别采用binary cross-entropy loss

负样本的objectness是零，故不会有分类损失。通过示性函数体现

Eg.

概率加起来可能会大于一

问题

一) 正样本负样本的定义？

二) 多尺度（FPN）怎么融合

不是合并的问题，三个输出分别为一三*一三,二六*二六,五二*五二，深度为二五五（每个格子三个框的参数），这里的框是通过深度体现的。

所以最后就是有 (一三 *一三+二六*二六+五二*五二) *三=一零六四七个框，然后就是按条件对这些框进行选择。一三*一三就是用来找大目标的，五二*五二生成的框就是用来找小目标的

附

FPN的实现原理

yolov四训练总结

相关推荐