摘要:针对自然场景中文字符检测率低,小字符检测困难以及字符检测类别多样等问题,本文提出了一种基于YOLOv2的改进方法,并将其应用于自然场景中文字符检测中.首先利用K-means++聚类算法对字符目标候选框(anchor)的数量和宽高比维度进行聚类分析,并增加anchor数量,选择6个大小不同的anchor,以筛选出更加适合于字符检测的候选框.然后提出多层特征融合策略,对原网络中第4个最大池化层前所输出的特征图经过3×3和1×1大小的卷积核进行卷积操作并执行4倍的下采样得到局部特征,再对第5个最大池化层前所输出的特征图经过3×3和1×1大小的卷积核进行卷积操作并执行2倍的下采样得到局部特征,将局部特征与全局特征融合,增强网络对局部特征的提取,以提高网络对小字符目标的检测精度.同时增加高层卷积中的重复卷积层,将高层卷积中连续且重复的3×3×1024大小的卷积层数由3增加为5,以提高字符检测类别.最后使用Chinese Text in the Wild(CTW)数据集对YOLOv2和改进的YOLOv2算法进行对比实验,实验结果表明,改进后的YOLOv2算法在中文字符检测中平均准确率均值(Mean Average Precision,mAP)为78.3%,较原YOLOv2算法mAP值提升了7.3%,且明显高于其它自然场景中文字符检测方法.