Skip to content

机器学习三大任务类别

一、什么类型的问题适合使用机器学习的方法来处理呢?

  • 有充足的训练数据
  • 简单的编程无法做到
  • 问题的可解决性
场景描述
分类二分类预测结果只有两个离散的值,比如“1/0”,“是/否”
多分类预测结果是多个离散的值,比如“A、B、C...”
回归预测的结果是连续的值,如房价的预测,天气温度的预测等
聚类将相似的样本归类在一起,如用户画像等

二、分类

1、定义

分类问题:教机器去学习给定的数据,然后将未知的数据分到不同类别中去。

通常包括一个“训练阶段”,用已知的数据来教机器如何进行分类,然后在“测试阶段”的时候,用这个机器来对新的未知数据进行分类。

  • 二分类问题:判断一个事情的结果是“男 / 女”、“是 / 否”、“1/0”,这种问题它的结果只有两个互斥且全覆盖的值。
  • 多分类问题:预测结果是三个或三个以上情况的。

2、案例1

根据用户 A、B、 C、D 的性别数据,来预测商城其他用户的性别。

ml

三、回归

1、定义

回归问题:预测的结果是连续值。

类比为方程: 给一些自变量 x 和因变量 y 的具体值,拟合成一个方程 y=f(x)

2、案例1

判断当前某个商品的库存是否足够。

  • 判断方式:预测未来该产品的销量,根据预测结果判断库存是否足够。
  • 预测原理:通过观察数据发现,某个产品的被搜索次数越多,销量就越高。

一个产品销量的影响因素:

  • 折扣的力度
  • 用户的评价
  • ......

这 n 个特征,总结到一个回归方程里:

销量 = a0 + a1 · 搜索次数 + a2 · 用户评价 + a3 · 折扣力度 + ...

3、案例2

一个房地产经纪人,通过一些房子的各种数据(面积、卧室数量、地理位置等)和实际的售价,就可以“训练”出一个模型。

当给出一个新房子的各种特点后,就可以预测这个房子的售价。

三、聚类

1、定义

  • 聚类问题:根据“物以类聚”的原理,将我们给定的样本聚集成不同组的过程。
  • 目的:尽可能使属于同一个组里的样本相似,而属于不同组的样本应该足够不相似。

与分类问题不同,进行聚类前并不知道将要划分成几个组,以及是什么样的组,训练数据没有结果,没有标签,完全依靠算法进行聚类。

2、案例1

用户画像:根据用户的年龄、购买频率、购买的商品类别、消费金额等等数据,将相似的用户进行聚类,分成几个不同的组。

假设一个电商平台,有以下几个客户的数据(只展示了三个特性):

分类结果

  • 小组 1:客户 1 和客户 3(年轻,购买频率高,消费金额相对低)
  • 小组 2:客户 2、客户 4 和客户 5(年龄偏大,购买频率低,消费金额相对较高或中等)

针对不同的用户进行不同的营销应用:

  • 对于小组 1 的用户:推送更多低价、高频的商品。
  • 对于小组 2 的用户:推送更多高价、高品质的商品。

Released under the MIT License.