说明:最全专利文库
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210959780.7 (22)申请日 2022.08.11 (71)申请人 上海数鸣人工智能科技有限公司 地址 200436 上海市 静安区万 荣路1256、 1258号406室 (72)发明人 项亮 陈桢  (74)专利代理 机构 上海天辰知识产权代理事务 所(特殊普通 合伙) 31275 专利代理师 吴世华 尹一凡 (51)Int.Cl. G06Q 30/02(2012.01) G06F 16/906(2019.01) G06K 9/62(2022.01) (54)发明名称 基于DPI共现关系特征的半监督用户行为预 估方法 (57)摘要 一种基于DPI共现关系特征的半监督用户行 为预估方法, 其包括数据预处理步骤S1、 训练集 的生成步骤S2和模型建立和预测步骤S3。 本发明 基于DPI共现关系特征的半监督用户行为预估 方 法, 其针对DPI访问时间不易获得和DPI独 热编码 带来的特征稀疏性问题, 提出使用DPI共现情况 构建统计矩阵, 再对该矩阵进行SVD分解, 得到每 个DPI的特征向量; 通过用户的DPI特征, 使用非 缺失的用户属性特征建立模型, 来预测这些特征 的缺失值; 之后再将包含了预测值和本身有值的 用户属性特征连同DPI特征一起, 作为用户整体 特征, 用于基于用户广告点击情况建立点击率预 估模型, 以提升用户点击率预测结果。 权利要求书1页 说明书7页 附图4页 CN 115271823 A 2022.11.01 CN 115271823 A 1.一种基于DPI共现关系特征的半监督用户行为预估方法, 其特征在于, 包括数据 预处 理步骤S1、 训练集的生成步骤S2和模型建立和预测步骤S3; 所述数据预处 理步骤S1包括如下步骤: 步骤S11: 获取m个用户的原始数据信息, 并从所述用户的原始数据信息提取原始特征 信息; 其中, 所述原始特征信息包括用户ID、 用户所在省份、 用户所在 城市、 用户访问DPI、 用 户访问时间(频度)、 设备类型和/或用户是否点击特征; 其中, 所述用户所在省份、 用户所在 城市、 和用户访问DPI为类别特征, 所述用户访问时间为连续特征, 所述m大于等于2; 所述用 户访问DPI为n个, 所述 n大于等于2; 步骤S12: 对所述用户的原 始特征信息进行异常检测与处 理步骤; 步骤S13: 通过独热编码对类别特征进行处理, 根据业务需求及求解模型选择进行归一 化后梯度下降处 理, 或利用Ran kGauss方法对连续特 征进行调整样本分布处 理; 所述步骤S2包括特征工程的处理步骤S2 1、 共现矩阵的构造和 DPI特征向量的获取步骤 S22和模型训练与模型建立 步骤S23; 步骤S21具体包括如下步骤: 步骤S211: 用户访问D PI处理步骤, 建立用户ID与用户访问D PI的特征列; 步骤S212: 采用通过独热编码对类别特 征进行处 理; 步骤S213: 连续特 征进行数值型特征改造处 理; 步骤S214: 进行 特征筛选和特征构造, 以形成新的特 征; 步骤S215: 执 行连续特征离散化处理; 步骤S22共现矩阵的构造和D PI特征向量的获取 具体包括如下步骤: 步骤S221: 通过用户访问DPI访问列表, 获得所有用户当天访问用户访问DPI的情况, 之 后对用户访问DPI访问列表中的用户访问DPI进行计数统计来获得共现矩阵; 其中, 所述共 现矩阵的维度为 n×n; 步骤S221: 使用奇异值分解算法可以将共现矩阵分解得到维度为n ×k的特征矩阵, 其 中, k为特征矩阵的维度(k<n), 所述特征矩阵的维度自由指 定, 代表特征维度, 对于每个DPI 来说都有对应的k维特 征向量, 所述 k维特征向量即用户访问D PI的稠密表达, 也即词向量; 步骤S3具体包括如下步骤: 步骤S31: 通过共现矩阵得到每个DPI的特征向量, 之后对于每个用户而言, 将其访问的 DPI对应的特 征向量取均值, 得到k维D PI特征; 步骤S32: 将具有未缺失用户属性特征的用户筛选出来, 使用DPI特征和用户属性特征 建立用户属性预测模型, 再使用缺失了用户属 性特征的用户的DPI特征带入到模型中来预 测这些用户所缺失的用户属性特 征; 步骤S33: 把所有用户的DPI特征和用户属性特征进行合并, 结合每个用户广告点击标 签, 建立最终的点击率预估 模型。 2.根据权利要求1所述的预测方法, 其特征在于, 所述点击率预估模型为梯度提升决策 树模型, 其实现方式包括XGBo ost或lightGBM。 3.根据权利 要求1所述的预测方法, 其特征在于, 所述步骤S3还包括步骤S32: 通过将上 述特征带入训练好的用户预测模型, 能够提前在广告投放之前就筛选出意愿 较高的部 分用 户, 并对这些用户进行 营销广告的精准投放。权 利 要 求 书 1/1 页 2 CN 115271823 A 2基于DPI共现关系特征的半监督用户行为预估方 法 技术领域 [0001]本发明涉及人工智能在互联 网营销的技术领域, 更具体地, 涉及一种基于DP I共现 关系特征的半监 督用户行为预估方法。 背景技术 [0002]点击率(Click ‑Through Rate, 简称CTR)预估问题是互联网计算广告中的关键环 节; 对用户预估的准确 性直接影响公司营销广告的收入。 点击率预估问题是互联网计算广 告中的关键环 节, 对用户预估的准确性 直接影响公司营销广告的收入。 [0003]在广告投放过程中, 一般会经历广告曝光、 用户点击和用户注册(或称转化)这三 个过程, CTR预估的一大目的是提高从广告曝光到用户点击的效率, 即提高点击率。 由于用 户点击或不 点击一般 定义为用户行为的标签。 [0004]本领域技术人员清楚, 传统的CTR预估可看作是一个有监督学习问题: 即已知了用 户点击行为 等一系列特 征后, 将用户点击记为1, 用户不 点击记为0, 从而 进行二分类学习。 [0005]点击率预估中, 数据特 征一般可以分为: [0006]①、 用户画像特 征, 其主要包括用户的年龄、 性别、 收入水平、 使用设备类型等; [0007]②、 物品/商品特征, 其主要包括dpi、 点击频次等)。 在此基础上, 还可以通过结合 具体的业 务需求或通过算法对特 征进行交 互和组合, 包括了各种统计特 征等。 [0008]尤其是对于某些商品的类别特征, 对其处理后(例如 独热向量展开等)往往维度非 常高, 特征的组成也较为复杂。 此外, 在很多业务中, 特征对于待遇测结果的贡献也往往是 人们关心的问题。 [0009]因此, 在预估过程中, 如果进行特征筛选对于提取重要特征、 降低计算复杂度、 降 低过拟合 风险等多方面都是有益的。 [0010]在用户DPI完整度较为充分的情况下, 所有用户访问的DPI数量众多, 如果使用独 热编码的方式将用户的DPI访问情况展开, 则会导致特征维度过高从而带来极大的计算成 本。 除此之外, 单个用户所访问的DPI占总访问DPI的比例相对不会太高, 因此用户的DPI访 问特征也是十分稀疏的, 在建模时也会带来过拟合的问题。 [0011]一种解决上述问题的思路是, 对每个用户访问DP I的时间数据也进行收集, 并根据 DPI访问先后顺序进 行排序, 得到DPI的上下文信息, 从而利用该信息来对DPI训练得到特征 表示向量(也即词向量)。 但这种方法所耗费 的成本也很大, 需要同时获得DPI的访问情况和 访问时间, 且 对访问时间数据的准确程度也有一定的要求。 [0012]在用户特征数据存在缺失的情 况下, 通常需要将特征存在缺失的用户数据在建模 前先剔除掉, 以避免缺失值影响模型建立和预测。 此外还可以通过一些如取众数和均值等 填补手段 人为将缺失值进行填充。 [0013]前者方法会导致原始数据信息的丢失, 因为通常只会有部分特征会 发生缺失的情 况, 简单的将有缺 失值的用户数据丢弃将导致数据浪费。 而后者的填充手段太过简单, 当缺 失值较多时可能会造成数据分布产生 错误的预估从而影响建模和预测。说 明 书 1/7 页 3 CN 115271823 A 3

.PDF文档 专利 基于DPI共现关系特征的半监督用户行为预估方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于DPI共现关系特征的半监督用户行为预估方法 第 1 页 专利 基于DPI共现关系特征的半监督用户行为预估方法 第 2 页 专利 基于DPI共现关系特征的半监督用户行为预估方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 06:31:16上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。