Skip to content

AI模型构建过程

一、模型构建阶段

模型构建的过程分成 4 个阶段,分别为模型设计、特征⼯程、模型训练、模型融合。

二、模型设计

在模型设计环节,产品经理只需要考虑两个问题,模型的目标变量怎么设置,模型的训练样本数据从哪里来。

  • 目标变量定义: 什么是流失用户(近一个月都无成功下单的用户)
  • 样本数据获取: 根据模型的目标、业务的实际场景来选择合适的样本(避开 618,双十一等特殊时期的样本数据)
  • 算法技术选择: 根据业务问题的性质,协助算法同事选择合适的的机器学习算法

三、特征工程

模型的构建流程: 提供足够多的样本数据,明确可以很好描述样本数据的特征,让机器去不断学习样本与各种特征间的“关系”,从而在面对未知数据时能做出正确的预测。

数据和特征决定了机器学习的上限,模型和算法只是逼近这个上限。

特征工程: 对一个模型来说,因为它的输入必须是数量化的信息,也就是用数字、向量、 矩阵等其他形式来表示的信息。所以,当我们想要利用一些字符串或者其他类型的数据 时,我们也一定要把它们先转换成数量化的信息。像这种把物体表示成一个向量或矩阵的过程,就叫做特征工程(Feature Engineering)

建立特征工程的流程:

  1. 数据清洗
  2. 特征提取
  3. 特征筛选

1、数据清洗

数据清洗, 即通过对数据进行一些预处理,来解决这些数据可能存在的数据缺失、有异常值、数据分布不均衡、量纲不一致等问题。

  • 数据缺失: 通过删除缺失值或者补充缺失值的手段来解决;
  • 数据异常: 对数据修正,或者直接丢弃;
  • 数据不均衡: 通过修改权重;
  • 量纲不一致: 通过归一化让它们的数据单位统一

2、特征提取

在预处理好的数据中进行特征的提取。

  • 数值型特征数据: 仅仅包含“数值”特征的数据。比如,用户近一年的消费金额、消费频率、浏览时长等信息,都是数值型特征数据。 这类特征可以直接从数仓中获取,操作起来比较简单。
  • 标签或描述类数据: 样本的属性含有多个类别的,对每一个类别打标签,再把每一个标签作为一个独立的特征。比如 有房 [0, 1]、有⻋ [0, 1]
  • 非结构化数据: 非结构化数据一般存在于 UGC 内容数据中,比如用户的评论内容,客诉的录音内容等。

3、特征选择

排除掉不重要的特征,留下重要特征

  • 计算特征的覆盖度,信息增益,相关性等指标;
  • 根据这些指标的绝对值,或按照历史经验,对特征进行筛选;
  • 再排除掉稳定性差的特征

四、模型训练

模型训练: 通过不断训练、验证和调优,让模型达到最优的一个过程。

决策边界: 在已知的用户中用分类算法找到一个决策边界,然后再用决策边界把未知用户快速划分成流失用户或者是非流失用户。

五、模型部署

一个模型训练完成并通过评估后,算法工程师就要考虑怎么把它部署到线上,并应用到业务场景中。

一般情况下,因为算法团队和工程团队是分开的两个组织架构,所以算法模型基本也是部署成独立的服务,然后暴露一个 API 接口给工程团队进行调用,这样可以解耦相互之间的工作依赖,便于最高效得开发上线。

Released under the MIT License.