专利 基于小样本学习的用户圈层挖掘方法、装置、介质及设备

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211264246.0 (22)申请日 2022.10.17 (71)申请人广州数说故事信息科技有限公司地址 510620 广东省广州市天河区黄埔大道西120号15 01室 (72)发明人牟昊　袁浩斌　何宇轩　徐亚波　李旭日　 (74)专利代理机构广州三环专利商标代理有限公司 44202 专利代理师麦小婵 (51)Int.Cl. G06F 40/117(2020.01) G06N 20/00(2019.01) G06Q 30/02(2012.01) G06F 16/951(2019.01) (54)发明名称基于小样本学习的用户圈层挖掘方法、装置、介质及设备 (57)摘要本发明公开了一种基于小样本学习的用户圈层挖掘方法、装置、介质及设备，所述方法包括：从网络平台中获取待处理语料集；对待处理语料集中的所有待处理语料进行圈层标注，获得标注语料集，标注语料集中的每一条标注语料对应标注了至少一个圈层名称，每一个圈层名称对应的标注语料的条数不小于预设条数阈值；对标注语料集进行数据增强处理，根据增强后的标注语料集对预设的小样本学习模型进行训练，获得训练后的小样本学习模型；根据训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类，获得用户所属的圈层名称。采用本发明的技术方案无需耗费大量人力成本和时间成本，能够在短时间、低标注量的情况下实现快速挖掘用户圈层。权利要求书3页说明书14页附图2页 CN 115329723 A 2022.11.11 CN 115329723 A 1.一种基于小样本学习的用户圈层挖掘方法，其特征在于，包括：从网络平台中获取待处理语料集；对所述待处理语料集中的所有待处理语料进行圈层标注，获得标注语料集；其中，所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称，每一个圈层名称对应的标注语料的条数不小于预设条数阈值；对所述标注语料集进行数据增强处理，获得增强后的标注语料集；根据所述增强后的标注语料集对预设的小样本学习模型进行训练，获得训练后的小样本学习模型；根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类，获得用户所属的圈层名称。 2.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述从网络平台中获取待处理语料集，具体包括：通过关键词搜索从网络平台中获取第一语料集；通过账号搜索从网络平台中获取第二语料集；根据所述第一语料集和所述第二语料集获得所述待处理语料集。 3.如权利要求2所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述对所述待处理语料集中的所有待处理语料进行圈层标注，获得标注语料集，具体包括：对所述第一语料集中的所有待处理语料进行逐条标注，确定每一条待处理语料对应的圈层名称；对所述第二语料集中的所有待处理语料进行逐条标注或一键标注，确定每一条待处理语料对应的圈层名称；根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。 4.如权利要求3所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集，具体包括： S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理； S22、判断去重后的标注语料的条数是否满足以下条件：每一个圈层名称对应的标注语料的条数不小于预设条数阈值； S23、若不满足，则继续从网络平台中获取新待处理语料集，对所述新待处理语料集中的所有新待处理语料进行圈层标注，获得新标注语料，对所述去重后的标注语料和所述新标注语料进行合并去重处理，并返回S2 2； S24、若满足，则根据所述去重后的标注语料获得所述标注语料集。 5.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述对所述标注语料集进行数据增强处理，获得增强后的标注语料集，具体包括：将所述标注语料集中的每一个圈层名称对应的标注语料的X%，由当前语种翻译成第二语种，并由第二语种再翻译成当前语种，获得翻译语料， 0＜X≤10 0；或/和，将所述标注语料集中的标注语料两两拼接，并在拼接的两条标注语料对应的圈层名称不相同时，为拼接生成的一条标注语料标注新圈层名称，获得拼接语料；权　利　要　求　书 1/3 页 2 CN 115329723 A 2根据所述标注语料集，并结合所述翻译语料或/和所述拼接语料，获得所述增强后的标注语料集。 6.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述方法还包括：当存在历史标注语料集时，对所述历史标注语料集和所述标注语料集进行合并去重处理，获得去重后的标注语料集；则，所述对所述标注语料集进行数据增强处理，获得增强后的标注语料集，具体包括：对所述去重后的标注语料集进行数据增强处理，获得所述增强后的标注语料集。 7.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述小样本学习模型为基于Soft ‑Prompt实现的自适应模板模型，且模型底层为预训练语言模型和分类器；则，所述根据所述增强后的标注语料集对预设的小样本学习模型进行训练，获得训练后的小样本学习模型，具体包括：将所述增强后的标注语料集划分为训练集和验证集；设置M个候选分类阈值，基于每一个候选分类阈值，分别根据所述训练集对所述预设的小样本学习模型进行训练，获得M个训练模型， M≥2；根据所述验证集分别对每一个训练模型进行验证，获得M个验证结果；根据每一个验证结果对应获取每一个训练模型的F1值，获得M个F1值， F1值为精确率和召回率的调和平均值；确定所述M个F1值中的最大F1值，并将所述最大F1值对应的候选分类阈值作为最终分类阈值，将所述最大F1值对应的训练模型作为所述训练后的小样本学习模型。 8.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类，获得用户所属的圈层名称，具体包括：根据所述训练后的小样本学习模型对所述待挖掘语料集进行分类，确定所述待挖掘语料集中的每一条待挖掘语料对应的圈层名称；计算所述用户账号下的每一个圈层名称对应的待挖掘语料的条数与所述待挖掘语料集中的所有待挖掘语料的条数的比值；根据比值大于预设比值阈值的圈层名称确定用户所属的圈层名称。 9.如权利要求1~8中任一项所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述方法还包括：当所述待挖掘语料集进行分类后的分类结果中，存在置信度大于预设置信度阈值的待挖掘语料时，将置信度大于预设置信度阈值的待挖掘语料作为增量训练数据；当所述增量训练数据的数量大于预设数量阈值时，对所述增量训练数据进行数据增强处理，获得增强后的增量训练数据；根据所述增强后的增量训练数据和所述增强后的标注语料集，对所述预设的小样本学习模型进行增量训练，获得增量训练后的小样本学习模型；当所述增量训练后的小样本学习模型对应的F1值大于所述训练后的小样本学习模型对应的F1值时，用所述增量训练后的小样本学习模型替换所述训练后的小样本学习模型。权　利　要　求　书 2/3 页 3 CN 115329723 A 3

专利 基于小样本学习的用户圈层挖掘方法、装置、介质及设备

专利基于小样本学习的用户圈层挖掘方法、装置、介质及设备