干货!基于表征的噪声转移矩阵估计方法

当训练数据集有标签噪声时,我们通常用噪声转移矩阵来刻画一个训练数据点被错误标注的概率。准确地估计该矩阵对于带噪学习具有重要意义。传统的估计方法大多依赖于模型的预测值,从而找到一些模型能够以高置信度预测的样本,进而估计噪声转移矩阵。然而,寻找足够多的符合条件的样本是一件困难的事情。为了摆脱对模型预测的依赖,我们从表征(representation) 的角度出发,提出了一种基于表征的噪声转移矩阵估计方法。该方法的基本思想是:具有相似表征的数据点应该属于同一类别,即相同真实标签。标签噪声的存在使得我们观测到的相似表征的噪声标签可能不一致,而标签的一致性蕴含了噪声转移矩阵的信息。我们证明:仅比较至多三个相似表征的标签一致性就可以得到噪声转移矩阵的唯一真实解。该方法为噪声转移矩阵的估计提供了一个全新的视角,并有潜力与自监督等表征学习方法相结合。

本期AI TIME PhD直播间我们邀请到加州大学圣克鲁兹分校博士生——朱兆伟,为我们带来 告分享《基于表征的噪声转移矩阵估计方法》。

朱兆伟:加州大学圣克鲁兹分校博士三年级学生。研究兴趣集中在弱监督学习、机器学习公平性、联邦学习等领域相关的理论及应用,比如,训练标签带有人为标注噪声时如何设计损失函数去抵消噪声影响,如何处理联邦学习中低质量、有系统误差的本地训练集。目前在ICML,ICLR,NeurIPS,ACM Sigmetrics,CVPR等会议,IEEE TWC,IEEE TPDS等期刊上发表多篇一作论文。


01

背 景

(1) 什么是噪声转移矩阵?

在深度学习的模型训练中,我们使用的数据集理想情况下它的标签是完全正确的,但是实际情况下,特别是人工标注过程中无法保证百分百准确性,因此很多情况下,实际的数据集标注是带噪的。

(2) 如何估计噪声转移矩阵

噪声转移矩阵可以帮助我们学习到对噪声有抵抗能力的分类器,然而目前的工作都局限于下面这个通用的流程。

首先利用一个神经 络拟合数据分布,然后我们的模型就可以进行类别预测,根据模型预测的类别概率,利用某些方法就可以得到噪声转移矩阵。

鉴于上面比较局限的噪声转移矩阵估计流程,我们想要不训练神经 络,直接估计噪声转移矩阵T。

02

方 法

假如我们有Y1,Y2,Y3三个噪声标签,根据全概率公式,将它们与噪声转移矩阵以及干净标签概率Y之间的关系表示如下:其中Y1,Y2,Y3三个噪声标签需要对应相同的干净标签,即在同一个标签空间下,Y1,Y2,Y3属于同一个类别。

我们知道在CIFAR-10数据集中,每张图片值对应一个标签,那如何获得这些高阶的数据量呢?有一个思路是具有相似特征的图片其标注标签相同。根据数据集中标注的噪声标签,我们就可以获得Y1,Y2,Y3等高阶数据样本。

以2-NN label clusterability为例,随机选取一个样本点以及它的两个最邻近的样本点作为一个类,我们要求这三个样本点的标注标签是一样的。

我们使用KNN label clusterability方法(文中Definition 1)来获取每个表征的相似表征,除了2-NN之外,我们还可以获取3个、4个等等最相近的样本点,但是获取的难度会增加,我们通过实验发现2-NN已经足够了(如下表)。我们使用clean CIFAR-10、clean CIFAR-100来训练一个模型,比如resnet,采用最后一层卷积层作为特征提取层,使用2-NN进行相似表征匹配。

此外,需要注意的是,在进行最近邻选择相似表征时,局部的簇群标签虽然都是猫,但这些局部簇群可能离得比较远,因为猫的种类不同,其图片表征也不同。

我们利用2-NN label clusterability将最邻近的三个表征归属为同一个标签类,这个条件可以帮助我们选取合适的噪声标签Y1,Y2,Y3,这些标签可以帮助我们列出最初提到的那些方程。我们的做法就是判断每个元组中噪声标签是否一致,比如对于每个pattern中某个标签出现的次数。下图中左边的绿圈是一个二阶的consensus pattern,橙色圆圈是噪声标签1,蓝色方块是噪声标签2,同样地,我们还有可能观测到两个方块,两个圆圈这样的二阶pattern。通过统计这些pattern在数据集上出现的频率就可以得到一些估计值。

下面我们通过一个一阶的例子来说明如何计算干净标签的概率p。噪声转移矩阵T在右上角已经标出,猫的标签是1,狗的标签是2。e1表示真实标签是猫,但被标记为狗的概率。e2表示真实标签是狗但被标记为猫的概率。所以观测到一只猫的概率就是真实标签是猫的概率p乘上真实是猫标记为猫的概率(1-e1)与真实标签不是猫的概率(1-p)乘上真实是狗标记为猫的概率e2之和。

03

实 验

(1) 噪声转移矩阵估计实验

(2) 分类准确性实验

除了Clothing1M数据集之外,我们自己收集了human-level的关于CIFAR-10的噪声标签(详见http://noisylabels.com/),因此实验更能贴近真实情况。


提醒

论文链接:https://arxiv.org/pdf/2102.05291v1.pdf

项目代码:https://github.com/UCSC-REAL

CIFAR-10/100噪声标签(最新版):http://noisylabels.com/

声明:本站部分文章内容及图片转载于互联 、内容不代表本站观点,如有内容涉及侵权,请您立即联系本站处理,非常感谢!

(0)
上一篇 2022年1月8日
下一篇 2022年1月9日

相关推荐