半监督学习笔记：self-training_网站优化分享

您的位置：上海毫米网络优化公司 > 网站优化分享 >

1 半监督学习

半监督学习（Semi-Supervised Learning）是机器学习的一种形式，它结合了监督学习和无监督学习的特点。
在半监督学习中，算法同时使用有标签的数据（即已知输出的数据）和无标签的数据（即未知输出的数据）进行训练。
这种方法在标签数据稀缺或获取标签成本高昂的情况下特别有用。
2 self-training 算法
- 基本思想是使用已标记的数据来训练一个初始模型，然后使用这个模型对未标记的数据进行预测，将预测结果中置信度高的数据（即模型预测最确定的部分）作为正确标记，将其添加到训练集中
- 这个过程可以迭代进行，逐步扩大有标签数据集的规模，并重新训练模型。
  
  2.1 优点
  - 可以有效利用大量未标记的数据。
  - 在标记数据稀缺的情况下提高模型性能。
  - 算法相对简单，易于实现。
    2.2 缺点
    - 对初始标记数据的质量非常敏感。
      - 当初始标记样本不能代表整个数据分布时，用初始标记样本训练的分类器泛化性较低。【构造的决策边界会偏离真实的决策边界，进而无法有效地归类数据】
    - 可能会放大初始模型中的偏差，导致误差积累。
    - 自我训练的过程可能会引入噪声。
    - 自训练需要迭代多次，且几乎所有的发现高置信度无标记样本的方法都需要排序置信度值，排序过程增加了计算时间，所以计算时间会较长。
    国外建筑网站推荐贵港网络问政平台动漫制作专业学什么课程安徽网络电视台长沙seo 深圳网站建设要多少钱

上一篇：物联网中南向协议、北向协议是什么？南向协议、北向协议的区别

下一篇：【赠书第17期】Excel高效办公：文秘与行政办公（AI版）

1 半监督学习

2 self-training 算法

2.1 优点

2.2 缺点