人工智能|大白话YOLOv2
欢迎来到人工智能的世界博客主页卿云阁欢迎关注点赞收藏⭐️留言首发时间2026年4月24日✉️希望可以和大家一起完成进阶之路作者水平很有限如果发现错误请留言轰炸哦万分感谢目录YOLOV2网络架构锚框和位置偏移运算YOLOV2网络架构采用Darkent-19作为新的主干网络。Darkent-19中只有1*1和3*3的卷积核但是YOLOv1中还有7*7的卷积核。YOLOv2直接舍弃了大的卷积核。比如我们使用7*7的卷积核进行运算需要的权重参数是49个但是如果我们使用3个3*3 卷积核需要的权重参数是27个感受野还相同。5*5的卷积核相当于两个3*3的卷积核。权重参数从25个降低到17个。Darkent-19在每个网络之后进行了批量归一化操作。YOLOv1 先用 224×224 的 ImageNet 数据预训练分类模型分类训练阶段再将输入尺寸放大到 448×448在检测数据集上微调最终得到一个端到端的目标检测器。检测训练阶段阶段输入尺寸数据集目标分类训练阶段左224×224ImageNet学习通用图像特征检测训练阶段右448×448Pascal VOC 等检测数据集学习目标定位与检测YOLOv2 延续了 “先预训练再检测微调” 的思路但做了更精细的优化分为两大阶段阶段子步骤输入尺寸数据集关键信息预训练阶段Train224×224ImageNet160 个 epochFine-tune448×448ImageNet10 个 epoch检测阶段Detection416×416或 352/608Pascal VOC COCO尺寸是 32 的倍数每 10 个批次更换尺寸上面原始论文上的网络架构仅仅是预训练阶段的分类训练的网络架构。在检测阶段和实际的使用当中后面的部分会被替换掉。只保留网络主干部分。在 YOLOv2 的网络结构中模型保留了Darknet-19作为骨干特征提取网络并在其后额外堆叠了两个卷积层。为了融合不同层级的特征信息模型引入了直通层Passthrough Layer将骨干网络第 5 组卷积层输出的高分辨率浅层特征进行空间到通道Space-to-Depth的重排后与网络尾部卷积层输出的低分辨率深层特征进行拼接融合。最后再通过两个卷积层直接输出目标检测结果。直通层的设计实现了高低分辨率特征的有效融合显著提升了模型对小目标的检测能力。我们以26×26 特征图为例将其左上角的2×2 区域划分为4 个不同颜色的格子并以步长 2 遍历整个特征图。遍历完成后将所有相同颜色的格子按通道维度进行重组原本的 26×26 特征图就会被转换为13×13×4 的特征张量这就是典型的Space-to-Depth空间到深度重排操作。在 YOLOv2 的直通层Passthrough Layer中该操作会被应用于骨干网络输出的 512 通道26×26 特征图通过上述2×2 分块与重组空间维度上的信息被重排到通道维度中最终得到一个13×13×2048的特征张量。随后这个13×13×2048的高分辨率特征会与网络深层输出的 13×13×1024低分辨率特征进行通道拼接最终得到一个13×13×3072 的融合特征图。直通层通过这种方式实现了浅层细粒度特征与深层语义特征的有效融合解决了 YOLOv1 中小目标检测精度低的问题让模型能够捕捉到更多细节信息从而显著提升了小目标的检测性能。锚框和位置偏移运算模型最终输出为尺寸 13×13×5×(5C)的三维特征矩阵。其中参数 5代表 YOLOv2 为每个网格预先设定的5 组先验锚框。整张特征图共划分为 13×13个网格单元每个网格都会独立预测 5 个边界框。维度 (5C)为单个预测框的输出向量长度含义如下前 4 个数值分别预测目标边界框的中心偏移量、框体宽度与高度第 5 个数值目标存在置信度用于判断该区域内是否包含物体末尾 C个数值对应全部目标类别的预测概率。在后处理阶段置信度分支的输出需经过 Sigmoid 激活函数映射至 01 区间以此得到最终有效的目标置信得分完成检测结果的解码与输出。在现实场景中待检测目标的外形与尺寸往往具备固定规律。例如行人多呈现竖向长条形态俯视视角下的车辆则偏向宽矩形结构。不难发现不同类别的物体其边界框的长宽比例、尺寸大小都存在明显共性。我们可以从数据集中归纳出一批具有代表性、普适性较强的边界框尺寸与比例将这类起到先验模板作用的基准框定义为锚框Anchor。为了获得适配数据集、泛化性更强的通用锚框YOLOv2/YOLOv5 不再依靠人工经验手动设定尺寸而是采用聚类算法对数据集中所有真实标注的边界框做维度聚类分析自动统计并归纳特征最终筛选出 5 组最具代表性、贴合目标实际形态的锚框以此作为模型的先验基准框提升边界框回归精度与检测效果。模型将特征图划分为 13×13个网格单元每个网格会从预设的一组锚框中匹配并选用最合适的先验锚框。以划分为 13×13网格的图像为例首先标注出真实目标框及其中心位置。在训练阶段模型会为每个真实目标逐一计算其与全部候选锚框的交并比IoU筛选出交并比最大的最优锚框作为匹配基准。该匹配锚框的中心会落在对应网格内随后以这个最优锚框为参照结合模型实时预测的边界框参数计算坐标、宽高的偏移误差以此完成边界框的回归训练不断修正预测框位置提升定位精度。锚框的尺寸为数据集图像下的相对尺度具备较强的数据依赖性因此需要根据自身数据集的目标分布定制适配的专属锚框才能更好贴合实际检测场景。以单个网格为例假设第二行第二个网格中红色框为模型输出的预测边界框蓝色框为该网格匹配的先验锚框。目标中心的偏移参数由模型直接回归预测得到。训练过程中模型以蓝色锚框作为基准模板结合预测框坐标、宽高、置信度与类别信息与真实标注框进行比对进而计算坐标偏差损失、置信度损失与分类损失完成参数的迭代优化。总结一下锚框是基于数据集目标特征预先设定的先验基准框提前归纳了物体常见的尺寸与长宽比例为模型提供固定参考模板避免网络凭空预测目标尺寸与形态降低学习难度模型无需直接预测完整边界框仅需以匹配的锚框为基础微调中心坐标、宽高尺寸简化回归任务适配不同形态的检测目标有效提升边界框定位精度加快模型收敛速度改善小目标、异形目标的检测效果。【1】参考大白话讲明白Yolov3的Darknet-53网络架构 #YOLO #YOLOv3 #目标检测 #知识前沿派对 #深度学习 - 抖音