其中:
监督学习模型的性能在一定程度上依赖于有标记训练数据的数量,但是人工手动标注数据既耗时又昂贵; 无监督学习和强化学习目前解决的场景问题有限; 自监督学习不需要有标记的训练数据,并可以通过微调使几乎所有下游任务受益,所以近年来自监督学习的研究越来越火热。

生成式(预测式)方法通过模型对输入进行编码再解码,以期望获取和输入完成相同的输出为目标。例如NLP领域中Bert【1】的掩码语言模型(MLM,Masked Language Modeling),随机抹除输入中的部分tokens,通过自监督训练来预测出这些tokens;CV领域何恺明最新提出的MAE【2】(Masked AutoEncoders),将样本图像划分为多个patch,随机抹除大部分的patch,通过非对称式的Encoder和Decoder在像素级完成被抹除图像的重建。
对比式方法的基本指导思想是:通过自动构造正样本对和负样本对,学习一种特征表达,通过这个特征表达,使得正样本对在投影空间中比较接近,而负样本对在投影空间中尽量远离。

为超参数。在对比式监督学习中也叫做 infoNCE loss(Info noise-contrastive estimation),样本中只有一个正例和 K 个负例,本质上可以看成 K+1 类的分类问题。

和
为样本, encoder q、encoder k 为编码器, q和 k 为样本经过编码器之后得到的特征( query vector 和 key vector ) 。
key vector 会被保存在一个字典(dictionary)中,假设字典的大小为 L,一个 query vector 只会和字典中的一个 key vector 构成正样本对,和 L-1 个 key vector 构成负样本对。
论文假设好的特征表达可以从一个巨大的字典中获取,并且字典的 key vector 应该保持连续。
显然在 end-to-end 模型中,字典的大小取决于由显存控制的 batch size 大小,而且编码器 encoder q 和 encoder k 的参数同步更新,这与论文假设不符,为了解决这两个问题,作者介绍了 memory bank 模型和 MoCo 模型,模型结构图如下:

m 为动量参数
为 key 编码器的参数
为 query 编码器的参数。

增加使用高斯模糊来进行增强,并使用大的 batch size 。
在编码器之后增加MLP层,实际使用时丢掉MLP只使用编码器。



