(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211024170.4
(22)申请日 2022.08.24
(71)申请人 上海数鸣人工智能科技有限公司
地址 200436 上海市 静安区万 荣路1256、
1258号406室
(72)发明人 项亮
(74)专利代理 机构 上海天辰知识产权代理事务
所(特殊普通 合伙) 31275
专利代理师 吴世华 尹一凡
(51)Int.Cl.
G06Q 30/02(2012.01)
G06K 9/62(2022.01)
G06N 3/08(2006.01)
(54)发明名称
基于子空间连续划分建模策略的用户点击
率预测方法
(57)摘要
一种基于子空间连续划分建模策略的用户
点击率预测方法, 其包括数据预处理步骤、 训练
集的生成步骤和所述模型训练与模 型建立步骤;
其中, 训练集的生成步骤包括特征工程的处理步
骤、 共现矩阵的构造步骤和DPI特征向量的获取
步骤, 其通过开发出更可靠的特征筛选算法, 有
效实现了对于总样本空间的连续划分, 即通过对
不同样本空间的学习和集 成, 有效降低了过拟合
和欠拟合风险, 提升了用户点击率预测的结果使
筛选后的原始特征显著降低了树模型的过拟合
风险, 并在实际业务中提升点击率预测结果都具
有重要的意 义。
权利要求书2页 说明书9页 附图3页
CN 115330461 A
2022.11.11
CN 115330461 A
1.一种基于子空间连续划分建模策略的用户点击率预测方法, 其特征在于, 包括数据
预处理步骤S1、 训练集的生成步骤S2和模型训练与模型建立 步骤S3;
所述数据预处 理步骤S1包括如下步骤:
步骤S11: 获取N个用户的原始数据信息, 并从所述用户的原始数据信息提取原始特征
信息; 其中, 所述原始特征信息包括用户ID、 用户所在省份、 用户所在 城市、 用户访问DPI、 用
户访问时间(频度)、 设备类型和/或用户是否点击特征; 其中, 所述用户所在省份、 用户所在
城市、 和用户访问D PI为类别特 征, 所述用户访问时间为连续特 征, 所述N大于等于2;
步骤S12: 对所述用户的原 始特征信息进行异常检测与处 理步骤;
步骤S13: 通过独热编码对类别特征进行处理, 根据业务需求及求解模型选择进行归一
化后梯度下降处 理, 或利用Ran kGauss方法对连续特 征进行调整样本分布处 理;
所述训练集的生成步骤S2包括特征工程的处理步骤S21和共现矩阵的构造步骤S22和
DPI特征向量的获取步骤S23;
步骤S21具体包括如下步骤:
步骤S211: 用户访问D PI处理步骤, 建立用户ID与用户访问D PI的特征列;
步骤S212: 采用通过独热编码对类别特 征进行处 理;
步骤S213: 连续特 征进行数值型特征改造处 理;
步骤S214: 进行 特征筛选和特征构造, 以形成新的特 征;
步骤S215: 执 行连续特征离散化处理;
步骤S22共现矩阵的构造和D PI特征向量的获取 具体包括如下步骤:
对步骤S22 1: 通过用户访问DPI访问列表, 获得所有用户当天访问用户访问DPI的情况,
之后对用户访问DPI访问列表中的用户访问DPI进行计数统计来获得共现矩阵; 其中, 所述
共现矩阵的维度为 n×n;
步骤S222: 使用奇异值分解算法可以将共现矩阵分解得到维度为n ×k的特征矩阵, 其
中, k为特征矩阵的维度(k<n), 所述特征矩阵的维度自由指 定, 代表特征维度, 对于每个DPI
来说都有对应的k维特 征向量, 所述 k维特征向量即用户访问D PI的稠密表达, 也即词向量;
步骤S23具体包括: 通过共现矩阵得到每个DPI的特征向量, 采用奇异值分解将其访问
的DPI对应的特 征向量取均值, 得到k维D PI特征;
步骤S3具体包括如下步骤:
步骤S31: 将每个DPI的k维DPI特征形成全量训练样本数据D1, 根据子空间连续划 分策
略, 连续划分形成二叉树形状的子空间集; 其中, 每一个所述二叉树的两个树枝子空间的特
征数为所述 二叉树特 征总数的1/2, 且每一个节点子空间的特 征为随机抽取;
步骤S32: 根据子空间停止划分的策略, 对每一个所述二叉树的两个节点子空间判断是
否修剪其所属的两个树枝; 最终形成最多具有N层(N1,N2 …Nn)树枝和总共具有M个子空间
(M1,M2…Mm)的二叉树; 其中, M个子空间(M1,M2 …Mm)的模型为(m1,m2 …mi…mm);
步骤S33: 从第一层开始, 采用有监督学习方法, 使用全量训练样本数据D1针对广告是
否点击建立点击率预估模型, 得到相应的模型为m1, 训练误差为e1, 训练样本的预测值为
p1;
步骤S34: 从第二层开始, 采用有监督学习方法, 对所述二叉树中的每一个子空间针对
广告是否点击 建立点击率预估模 型, 得到相应的模 型为mi, 训练误差为ei, 训练样本的预测权 利 要 求 书 1/2 页
2
CN 115330461 A
2值为pi; 其中, 在训练中, 上一层训练样 本的预测值pi被加入到 当前层的一个子空间的特征
中;
步骤S35: 以此类 推,…, 直到得到 M个满足训练误差的预估 模型。
2.根据权利要求1所述的预测方法, 其特征在于, 所述子空间连续划分策略作为子空间
停止划分的依据, 如下一种情况 出现即停止划分:
①、 如果第n阶子空间的训练误差pn是第n ‑1阶子空间训练误差的a倍, 则停止第n阶子
空间的划分; 其中, a大于1;
②、 如果在划分第n阶子空间后, 子空间中样本数量少于设定阈值Nmin, 则停止第n阶子
空间的划分;
③、 如果在划分第n阶子空间后, 阶数n超过了设定阈值Nmax, 则停止第n阶子空间的划
分;
④、 如果在划分第n阶子空间后, 建立的点击率预估模型数量超过了设定的模型最大数
量Mmax, 则停止第n阶子空间的划分。
3.根据权利要求1所述的预测方法, 其特征在于, 所述点击率预估模型为梯度提升决策
树模型, 其实现方式包括XGBo ost或lightGBM。
4.根据权利要求1所述的预测方法, 其特 征在于, 还 包括预测步骤S4, 其具体包括:
步骤S41: 获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始数据信
息, 并从所述用户原始数据信息提取原始特征信息; 其中, 所述原始特征信息包括用户ID、
用户所在省份、 用户所在城市、 用户访问DPI、 用户访问时间、 设备类型和 /或用户是否点击
特征; 其中, 所述用户所在省份、 用户所在城市、 和用户访问DPI为类别 特征, 所述用户访问
时间为连续特 征, 所述N大于等于2;
步骤S42: 对每一个所述用户的原始数据信息进行异常检测与处理步骤; 通过独热编码
对类别特征进行处理, 根据业务需求及求解模型选择进行归一化后梯度下降处理, 或利用
RankGauss方法对连续特 征进行调整样本分布处 理;
步骤S43: 通过共现矩阵得到每个DPI的特征向量, 之后对于每个待评估用户而言, 将其
访问的DPI对应的特 征向量取均值, 得到k维D PI特征;
步骤S44: 提供建立训练好的M个满足训练误差的预估模型, 依次输入M个预估模型, 每
个待评估用户的k 维DPI特征, 得到 m个预测结果, 最后对这m个预测结果取均值, 得到拟对 营
销活动点击预测的用户群体中所有所述用户的预测值; 其中, 所述用户的模型预测 值为所
述用户的点击意愿度。
5.根据权利要求 4所述的预测方法, 其特 征在于, 所述模型 预测步骤S4还 包括:
步骤S45: 根据实际投放需求, 选择全部或部分所述用户的模型预测值集中点击意愿度
为1的用户进行精准营销的任务。权 利 要 求 书 2/2 页
3
CN 115330461 A
3
专利 基于子空间连续划分建模策略的用户点击率预测方法
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 06:31:43上传分享