Appearance
机器学习类型
如果根据给定的训练数据是否带有具体的标签,分为有监督学习和无监督学习。
一、有监督学习
有监督学习: 模型利用已经标记过的训练数据进行学习。每个用于训练的数据都有一个对应的标签。
- 通过优化算法来“学习”输入和输出之间的映射关系。最后当模型训练好之后,就可以对未知的数据进行预测。
二、无监督学习
1、定义
无监督学习: 不要求训练的数据带有标签,模型尝试自己找出数据之间的规律,关系或者结构,进而做好数据的聚类。
- 无监督学习适用于那些没有明确标签,但又想从中获得一些有用信息的场景。
- 它更侧重于探索和发现,而不是进行精准的预测。
- 它目标不是告诉机器怎么做,而是让机器自己去学习,自己去探索数据,并找到数据之间的规律。
三、半监督学习
半监督学习: 介于于有监督学习和无监督学习之间。通常情况下,我们有一小部分的已标注的数据,以及大量的未标注数据。我们的训练目标,是使用这两种类型的数据来建立一个更有效的模型。
为什么会存在这种类型的机器学习方法?
- 数据成本问题
四、对比案例
假如现在有一个果园,里面有三种水果:苹果、橙子和葡萄。想训练一个机器学习模型,来自动识别这些水果:
- 有监督学习(完全标记): 拍了 100 张水果的照片,而且每一张照片上面,都标明了它是哪种水果(苹果、橙子、葡萄),然后用这 100 张标记好的照片,就可以训练模型
- 无监督学习(无标记): 拍了 100 张水果的照片,但没有任何标注说明,直接用这些照片训练模型。 模型会尝试自己找出这些图片中的某种规律或分类,然后将他们分成几类图片。最后再给每一类赋予一个说明
- 半监督学习(部分标记): 拍了 100 张水果的照片,只标注好了其中的 10 张照片。还有 90 张什么标签都没有的照片。
- 初始训练: 使用 10 张标记过的照片进行初步训练,得到一个初步的预测模型。
- 引入未标记数据: 用初步训练好的模型去预测那 90 张没有标签的照片。
- 模型优化: 把这 10 张标记照片和 90 张预测照片放到一起,对模型进行进一步的训练和优化,得到一个最终的模型。