Skip to content

机器学习类型

如果根据给定的训练数据是否带有具体的标签,分为有监督学习和无监督学习。

一、有监督学习

有监督学习: 模型利用已经标记过的训练数据进行学习。每个用于训练的数据都有一个对应的标签。

  • 通过优化算法来“学习”输入和输出之间的映射关系。最后当模型训练好之后,就可以对未知的数据进行预测。

二、无监督学习

1、定义

无监督学习: 不要求训练的数据带有标签,模型尝试自己找出数据之间的规律,关系或者结构,进而做好数据的聚类。

  • 无监督学习适用于那些没有明确标签,但又想从中获得一些有用信息的场景。
  • 它更侧重于探索和发现,而不是进行精准的预测。
  • 它目标不是告诉机器怎么做,而是让机器自己去学习,自己去探索数据,并找到数据之间的规律。

三、半监督学习

半监督学习: 介于于有监督学习和无监督学习之间。通常情况下,我们有一小部分的已标注的数据,以及大量的未标注数据。我们的训练目标,是使用这两种类型的数据来建立一个更有效的模型。

为什么会存在这种类型的机器学习方法?

  • 数据成本问题

四、对比案例

假如现在有一个果园,里面有三种水果:苹果、橙子和葡萄。想训练一个机器学习模型,来自动识别这些水果:

  • 有监督学习(完全标记): 拍了 100 张水果的照片,而且每一张照片上面,都标明了它是哪种水果(苹果、橙子、葡萄),然后用这 100 张标记好的照片,就可以训练模型
  • 无监督学习(无标记): 拍了 100 张水果的照片,但没有任何标注说明,直接用这些照片训练模型。 模型会尝试自己找出这些图片中的某种规律或分类,然后将他们分成几类图片。最后再给每一类赋予一个说明
  • 半监督学习(部分标记): 拍了 100 张水果的照片,只标注好了其中的 10 张照片。还有 90 张什么标签都没有的照片。
    1. 初始训练: 使用 10 张标记过的照片进行初步训练,得到一个初步的预测模型。
    2. 引入未标记数据: 用初步训练好的模型去预测那 90 张没有标签的照片。
    3. 模型优化: 把这 10 张标记照片和 90 张预测照片放到一起,对模型进行进一步的训练和优化,得到一个最终的模型。

Released under the MIT License.