半监督学习笔记:self-training
作者:mmseoamin日期:2024-02-02

1 半监督学习

  • 半监督学习(Semi-Supervised Learning)是机器学习的一种形式,它结合了监督学习和无监督学习的特点。
  • 在半监督学习中,算法同时使用有标签的数据(即已知输出的数据)和无标签的数据(即未知输出的数据)进行训练。
  • 这种方法在标签数据稀缺或获取标签成本高昂的情况下特别有用。

     2 self-training 算法

    • 基本思想是使用已标记的数据来训练一个初始模型,然后使用这个模型对未标记的数据进行预测,将预测结果中置信度高的数据(即模型预测最确定的部分)作为正确标记,将其添加到训练集中
    • 这个过程可以迭代进行,逐步扩大有标签数据集的规模,并重新训练模型

      半监督学习笔记:self-training,第1张

      2.1 优点

      • 可以有效利用大量未标记的数据。
      • 在标记数据稀缺的情况下提高模型性能。
      • 算法相对简单,易于实现。

        2.2 缺点

        • 对初始标记数据的质量非常敏感。
          • 当初始标记样本不能代表整个数据分布时,用初始标记样本训练的分类器泛化性较低。【构造的决策边界会偏离真实的决策边界,进而无法有效地归类数据】
        • 可能会放大初始模型中的偏差,导致误差积累。
        • 自我训练的过程可能会引入噪声。
        • 自训练需要迭代多次,且几乎所有的发现高置信度无标记样本的方法都需要排序置信度值,排序过程增加了计算时间,所以计算时间会较长。