arxiv 2022 10月论文
论文题目:
Dimensionality of datasets in object detection networks
论文地址:
https://arxiv.org/abs/2210.07049
摘要
近年来,卷积神经网络(cnn)被大量应用于计算机视觉的任务中,其中之一是自动驾驶的目标检测,尽管cnn被广泛应用于许多领域,但网络内部发生的事情在许多层面上仍然无法解释,我们的目标是确定不同层的内维数(即表示数据所需的最小参数数)对增宽数据集目标检测网络精度的影响,我们的研究确定,在特征提取过程中,正常数据和增强数据的表示存在差异。
1 .介绍及相关工作
自动驾驶是计算机视觉研究的一个热点领域,神经网络是自动驾驶系统中不可分割的一部分,通过神经网络处理图像和激光雷达点来预测目标,天气变化导致自动驾驶汽车灾难性后果的事件已经被见证,例如,2016年,特斯拉的自动驾驶汽车无法区分白色拖拉机和明亮的天空。我们的目标是估计在正常数据上训练的目标检测网络中增强数据集的本征维数(ID),以观察由于噪声或仿射变换引起的数据表示的变化。Bac等指出,ID估计在选择机器学习方法及其应用(包括验证、部署和可解释性)时非常重要。从内存需求和计算时间来看,内在空间中的标签识别是有效的,在输入中添加噪声会增加ID。在我们的研究中,使用TwoNN算法(图1)来估计ID,它基于两个最近邻居之间的距离之比,这使得它计算效率高,也克服了数据位于弯曲流形上的问题,它是数值一致和可靠的估计,即使存在少量的点,从现有的局部和全局ID估计器中,使用TwoNN算法进行ID估计。
本文的目的是首先验证,在增强数据集的情况下,相似的特征形状是否明显,其次,分类层ID提供了关于网络性能的想法,第三,如果由于不相关的特征而导致ID增加,第四,增强数据表示是否表现得像一个未经训练的网络?使用三个数据集是为了研究不同数据对增强的影响。ID在KITTI , MS COCO和VOC数据集的Faster R-CNN中使用VGG-16, VGG-19[骨干进行分析。观察到由于KITTI数据的垂直位移增强导致的ID增加,对于所有数据集,旋转图像的行为类似于未经训练的网络中数据的表示,COCO数据在分类层的维度行为与KITTI和VOC相反。
2内在维度
在神经网络中表示数据的几何特性之一是内禀维,即表示数据而不丢失信息所需的最小坐标数。局部ID估计器计算数据表示的局部子空间,全局ID估计器计算整个数据点表示,全局和局部ID估计器都可以用于替代数据邻域的估计。我们的目标是估计目标检测网络中不同层的ID,并确定增强数据的平均精度与估计ID之间的关系,对于局部空间中的正常生成的样本和对抗生成的样本,ID特征是可区分的。
这促使我们在全局空间中进行ID估计实验,本文采用TwoNN算法进行ID估计。
?计算数据集中每个点的成对距离。
?对于每个点,我找到两个最短距离r1和r2,并计算μi = (r1/r2)。
?通过排列σ将μ的值按升序排序,然后定义经验累积F emp(μσ(i)) .= i/N。
?用一条穿过原点的直线拟合坐标{log(μi),?log(1?Femp(μi))}给出的平面上的点。
直线的斜率给出了ID的估计值,用这种方法,估计的ID是渐近正确的,即使是从非均匀概率分布的数据采样。
3实验
本文在VGG骨干网的各池化层上计算ID(标记为pool1,…pool5),在Faster R-CNN中,经过特征提取层后,在区域建议网络的分类层(rpn c)和包围盒层(rpn b)上计算ID,然后是ROI池化层(ROI),第二层FC层(FC),最后是分类层(cls p)和包围框层(box p),在RetinaNet中,ID在VGG骨干的每个池化层计算。接下来计算ID的层是分类头卷积(cls h)块,分类(cls l)层,回归头卷积(框h)块和包围框(框r)层,之所以在一个层块之后计算ID,而不是每一个单层,是因为计算需求,在VOC数据训练的Faster R-CNN模型上估计MS COCO数据集的ID,或者在COCO数据训练的模型上估计VOC数据集的ID(图3b)。从表2中实现的其他增强是水平移动,图像向左或向右移动取决于-0.7到0.7之间生成的随机数和垂直移动,类似于水平移动,除非平移发生在图像的顶部或底部。
在对区域建议网络的ID估计时,由于我们的ID估计算法的约束,即每张图像在网络的层上表示为一个点,导致RPN后各层的ID没有变化,因此使用得分最高的包围框作为ROI池化层的输入。当使用得分最低的边界框时发生了什么?我们的结果没有影响,因为平均精度取决于网络预测的所有对象,另一个原因是如果没有对边界框进行预测,则从我们的估计过程中删除图像,因为在这种情况下,在ROI池化层将没有用于表示的数据点。对于1200像素的正方形图像,计算高维张量(400 x 2304000)时的内存要求为33.8G。因此,为了减少计算量和节省时间,ID估计使用400张图像,为了检查结果的稳定性,对小尺寸和大尺寸的ID进行了估计,在较大图像的情况下,ID值更高,但当与用于估计ID的图层绘制时,ID遵循类似的结构,可以在我们的知识库(https://github.com/ajaychawda58/ID_CNN)上找到相关图。
4 结果
根据分类任务中的发现,在经过训练的网络中,驼背形状是明显的,而在未经训练的网络中,网络显示扁平轮廓,在我们的实验中,观察到旋转图像的轨迹更平坦(图2),这表明旋转图像在流形中具有较差的表示,从旋转图像的评估中证明,与所有数据集上的其他增强相比,平均精度(表1)较低。
其他在不同层上具有不同ID的增强数据集的驼背轮廓如图2所示,因此与旋转图像相比,它们在网络中表现得更好。KIITI的垂直位移(图2a)具有较高的ID ~ 187,而正常数据在pool1层具有ID ~ 84,这可能是因为一些不相关的特征,比如用插值填充调整大小的图像,从而增加ID,也可能是因为KITTI的原始图像大小在1200 x 350左右,当图像垂直移位,通过插值填充空像素时,增加的像素对网络来说是不相关的特征。与COCO和VOC相比(图2b和2c),垂直位移与正常数据之间没有较大差异,因此,由于COCO和VOC的长宽比接近1:1,KITTI图像的长宽比3:1可以确认ID增加。如果位移的增加仅仅是由于移位图像的填充,那么在水平移位图像中也会出现这种情况,但是在初始池化层中没有增加用于水平移动的ID,这支持了我们的说法。
分类层ID并不能预测目标检测性能,在我们的例子中,最后一个隐藏层(fc层)ID也与***P没有关系(表1),因此,使用TwoNN算法,ID与***P在数据集上的依赖关系无法确认,但在特征提取层面观察到ID的差异,这促使我们稍后使用不同的方法来研究我们的假设。
对比图2a、图2b和图2c,我们观察到KITTI和VOC数据中分类层的ID低于包围盒层,而COCO数据则相反,分类层的ID高于包围盒层,一种可能是由于大量的类(n=91),网络在分类层泛化很差。在VOC数据训练的模型上评估COCO数据,反之亦然,我们的目标是研究在另一个数据集上训练的网络中不同数据集的行为,在两个数据集中,pool3层的ID都减少了,减少的原因可以归因于网络中影响这一特定层ID的类数量的变化,因为网络的其他超参数在两个数据集中是相同的。
5结论和未来工作
提出的方法基于目标检测网络中通过估计ID的数据表示,将结果与分类任务进行比较,观察到它们在特征提取水平上具有可比性,但在区域建议网络之外没有。由于ID估计器的选择,该方法受到了限制,但在主干水平上仍然观察到有趣的行为,这促使人们继续使用不同的估计器进行研究。进一步的研究将继续比较目前的结果和没有建议的增强和网络训练的模型YOLO,并利用现有方法消除了ID估计的瓶颈,我们的工作从基本层面开始,通过估计Faster R-CNN上的数据集ID,这表明了该方法的新颖性,并希望在未来找到更多关于目标检测网络的解释。
如若转载,请注明出处:https://www.xiezuomuban.com/7876.html