专利 基于子空间连续划分建模策略的用户点击率预测方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211024170.4 (22)申请日 2022.08.24 (71)申请人上海数鸣人工智能科技有限公司地址 200436 上海市静安区万荣路1256、 1258号406室 (72)发明人项亮　 (74)专利代理机构上海天辰知识产权代理事务所(特殊普通合伙) 31275 专利代理师吴世华　尹一凡 (51)Int.Cl. G06Q 30/02(2012.01) G06K 9/62(2022.01) G06N 3/08(2006.01) (54)发明名称基于子空间连续划分建模策略的用户点击率预测方法 (57)摘要一种基于子空间连续划分建模策略的用户点击率预测方法，其包括数据预处理步骤、训练集的生成步骤和所述模型训练与模型建立步骤；其中，训练集的生成步骤包括特征工程的处理步骤、共现矩阵的构造步骤和DPI特征向量的获取步骤，其通过开发出更可靠的特征筛选算法，有效实现了对于总样本空间的连续划分，即通过对不同样本空间的学习和集成，有效降低了过拟合和欠拟合风险，提升了用户点击率预测的结果使筛选后的原始特征显著降低了树模型的过拟合风险，并在实际业务中提升点击率预测结果都具有重要的意义。权利要求书2页说明书9页附图3页 CN 115330461 A 2022.11.11 CN 115330461 A 1.一种基于子空间连续划分建模策略的用户点击率预测方法，其特征在于，包括数据预处理步骤S1、训练集的生成步骤S2和模型训练与模型建立步骤S3；所述数据预处理步骤S1包括如下步骤：步骤S11：获取N个用户的原始数据信息，并从所述用户的原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间(频度)、设备类型和/或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问D PI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；步骤S12：对所述用户的原始特征信息进行异常检测与处理步骤；步骤S13：通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用Ran kGauss方法对连续特征进行调整样本分布处理；所述训练集的生成步骤S2包括特征工程的处理步骤S21和共现矩阵的构造步骤S22和 DPI特征向量的获取步骤S23；步骤S21具体包括如下步骤：步骤S211：用户访问D PI处理步骤，建立用户ID与用户访问D PI的特征列；步骤S212：采用通过独热编码对类别特征进行处理；步骤S213：连续特征进行数值型特征改造处理；步骤S214：进行特征筛选和特征构造，以形成新的特征；步骤S215：执行连续特征离散化处理；步骤S22共现矩阵的构造和D PI特征向量的获取具体包括如下步骤：对步骤S22 1：通过用户访问DPI访问列表，获得所有用户当天访问用户访问DPI的情况，之后对用户访问DPI访问列表中的用户访问DPI进行计数统计来获得共现矩阵；其中，所述共现矩阵的维度为 n×n；步骤S222：使用奇异值分解算法可以将共现矩阵分解得到维度为n ×k的特征矩阵，其中， k为特征矩阵的维度(k<n)，所述特征矩阵的维度自由指定，代表特征维度，对于每个DPI 来说都有对应的k维特征向量，所述 k维特征向量即用户访问D PI的稠密表达，也即词向量；步骤S23具体包括：通过共现矩阵得到每个DPI的特征向量，采用奇异值分解将其访问的DPI对应的特征向量取均值，得到k维D PI特征；步骤S3具体包括如下步骤：步骤S31：将每个DPI的k维DPI特征形成全量训练样本数据D1，根据子空间连续划分策略，连续划分形成二叉树形状的子空间集；其中，每一个所述二叉树的两个树枝子空间的特征数为所述二叉树特征总数的1/2，且每一个节点子空间的特征为随机抽取；步骤S32：根据子空间停止划分的策略，对每一个所述二叉树的两个节点子空间判断是否修剪其所属的两个树枝；最终形成最多具有N层(N1,N2 …Nn)树枝和总共具有M个子空间 (M1,M2…Mm)的二叉树；其中， M个子空间(M1,M2 …Mm)的模型为(m1,m2 …mi…mm)；步骤S33：从第一层开始，采用有监督学习方法，使用全量训练样本数据D1针对广告是否点击建立点击率预估模型，得到相应的模型为m1，训练误差为e1，训练样本的预测值为 p1；步骤S34：从第二层开始，采用有监督学习方法，对所述二叉树中的每一个子空间针对广告是否点击建立点击率预估模型，得到相应的模型为mi，训练误差为ei，训练样本的预测权　利　要　求　书 1/2 页 2 CN 115330461 A 2值为pi；其中，在训练中，上一层训练样本的预测值pi被加入到当前层的一个子空间的特征中；步骤S35：以此类推，…，直到得到 M个满足训练误差的预估模型。 2.根据权利要求1所述的预测方法，其特征在于，所述子空间连续划分策略作为子空间停止划分的依据，如下一种情况出现即停止划分： ①、如果第n阶子空间的训练误差pn是第n ‑1阶子空间训练误差的a倍，则停止第n阶子空间的划分；其中， a大于1； ②、如果在划分第n阶子空间后，子空间中样本数量少于设定阈值Nmin，则停止第n阶子空间的划分； ③、如果在划分第n阶子空间后，阶数n超过了设定阈值Nmax，则停止第n阶子空间的划分； ④、如果在划分第n阶子空间后，建立的点击率预估模型数量超过了设定的模型最大数量Mmax，则停止第n阶子空间的划分。 3.根据权利要求1所述的预测方法，其特征在于，所述点击率预估模型为梯度提升决策树模型，其实现方式包括XGBo ost或lightGBM。 4.根据权利要求1所述的预测方法，其特征在于，还包括预测步骤S4，其具体包括：步骤S41：获取拟对营销活动点击预测的用户群体和所述用户群体的用户原始数据信息，并从所述用户原始数据信息提取原始特征信息；其中，所述原始特征信息包括用户ID、用户所在省份、用户所在城市、用户访问DPI、用户访问时间、设备类型和 /或用户是否点击特征；其中，所述用户所在省份、用户所在城市、和用户访问DPI为类别特征，所述用户访问时间为连续特征，所述N大于等于2；步骤S42：对每一个所述用户的原始数据信息进行异常检测与处理步骤；通过独热编码对类别特征进行处理，根据业务需求及求解模型选择进行归一化后梯度下降处理，或利用 RankGauss方法对连续特征进行调整样本分布处理；步骤S43：通过共现矩阵得到每个DPI的特征向量，之后对于每个待评估用户而言，将其访问的DPI对应的特征向量取均值，得到k维D PI特征；步骤S44：提供建立训练好的M个满足训练误差的预估模型，依次输入M个预估模型，每个待评估用户的k 维DPI特征，得到 m个预测结果，最后对这m个预测结果取均值，得到拟对营销活动点击预测的用户群体中所有所述用户的预测值；其中，所述用户的模型预测值为所述用户的点击意愿度。 5.根据权利要求 4所述的预测方法，其特征在于，所述模型预测步骤S4还包括：步骤S45：根据实际投放需求，选择全部或部分所述用户的模型预测值集中点击意愿度为1的用户进行精准营销的任务。权　利　要　求　书 2/2 页 3 CN 115330461 A 3

专利 基于子空间连续划分建模策略的用户点击率预测方法

专利基于子空间连续划分建模策略的用户点击率预测方法