专利 基于强化学习的病床资源配置优化方法、系统及终端

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202211263783.3 (22)申请日 2022.10.17 (65)同一申请的已公布的文献号申请公布号 CN 115331796 A (43)申请公布日 2022.11.11 (73)专利权人中科厚立信息技术（成都）有限公司地址 610000 四川省成都市中国（四川）自由贸易试验区成都高新区益州大道中段1800号1栋17层170 5号 (72)发明人张北　唐显恒　李涛　 (74)专利代理机构成都行之智信知识产权代理有限公司 5125 6 专利代理师何筱茂(51)Int.Cl. G16H 40/20(2018.01) G06N 20/00(2019.01) (56)对比文件 EP 0764914 A 2,1997.03.26 CN 112017768 A,2020.12.01 CN 109545 348 A,2019.0 3.29 JP 2006048573 A,20 06.02.16 US 2018348716 A1,2018.12.0 6 审查员王诗玮 (54)发明名称基于强化学习的病床资源配置优化方法、系统及终端 (57)摘要本发明公开了基于强化学习的病床资源配置优化方法、系统及终端，涉及资源配置优化技术领域，其技术方案要点是：获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；结合病床配置数据和时间差异分布信息，模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；智能体根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。本发明采用机器强化学习(RL)的方法训练智能体，考虑不同科室疾病在时间分布上的差异情况，使得床资源配置优化策略更加符合实际情况，有效提高了病床资源配置优化的准确性与可靠性。权利要求书2页说明书6页附图1页 CN 115331796 B 2022.12.27 CN 115331796 B 1.基于强化学习的病床资源配置优化方法，其特征是，包括以下步骤：获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；结合病床配置数据和时间差异分布信息，通过机器强化学习方法模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；智能体在根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。 2.根据权利要求1所述的基于强化学习的病床资源配置优化方法，其特征是，所述时间差异分布信息的获得过程具体为：对在院患者数做滑动平均处理，得到标准配置数据；动态设置两个相邻且均大于基础步长的第一步长和第二步长；以第一步长与第二步长中的数据均值之差不小于标准差值为第一目标，对标准配置数据进行搜索分析，所有搜索确定的第一步长与第二步长所对应的时间段构成时间差异分布信息。 3.根据权利要求2所述的基于强化学习的病床资源配置优化方法，其特征是，以所有所述第一步长与第二步长中的数据均值之差波动性最大为第二目标确定唯一的时间差异分布信息。 4.根据权利要求1所述的基于强化学习的病床资源配置优化方法，其特征是，所述状态空间中的变量包括：患者科室类别、当前单一科室的在院患者数、当前单一科室的住院天数超长患者数、当前剩余未分配病床数、日期、是否节假日以及未入院患者数量。 5.根据权利要求1所述的基于强化学习的病床资源配置优化方法，其特征是，所述动作空间具体为：若病床高于空置阈值或调整病床周转率时，则智能体不分配病床；若病床不高于空置阈值，且病床周转率低于周转率阈值时，则智能体分配病床。 6.根据权利要求1所述的基于强化学习的病床资源配置优化方法，其特征是，所述以最大化累计奖赏为目标的计算公式具体为：其中，表示在时刻t所确定的累计奖赏；表示第k次动作的奖励衰减值；表示在时刻t+k+1的奖赏值。 7.根据权利要求1所述的基于强化学习的病床资源配置优化方法，其特征是，所述以最大化累计奖赏为目标的计算公式具体为：其中，表示在时刻t所确定的累计奖赏；表示第k次动作的奖励衰减值；表示在时刻t+k+1的奖赏值；表示时刻t+k+1所属步长的数据均值；表示病床配置数据的数据均值。 8.根据权利要求1所述的基于强化学习的病床资源配置优化方法，其特征是，所述以最权　利　要　求　书 1/2 页 2 CN 115331796 B 2大化累计奖赏为目标的计算公式具体为：其中，表示在时刻t所确定的累计奖赏；表示第k次动作的奖励衰减值；表示在时刻t+k+1的奖赏值；表示时刻t+k+1所属步长的数据均值；表示病床配置数据的数据均值。 9.基于强化学习的病床资源配置优化系统，其特征是，包括：数据处理模块，用于获取多个科室的病床配置数据，并对单一科室的在院患者数进行时间差异分析，得到时间差异分布信息；模型构建模块，用于结合病床配置数据和时间差异分布信息，通过机器强化学习方法模拟患者入出院过程建立智能体需要的状态空间、动作空间以及奖赏函数；配置优化模块，用于在根据策略函数选择并执行当前状态对应的动作过程中，以最大化累计奖赏为目标，得到多个科室的病床资源配置优化策略。 10.一种计算机终端，包含存储器、处理器及存储在存储器并可在处理器上运行的计算机程序，其特征是，所述处理器执行所述程序时实现如权利要求 1‑8中任意一项所述的基于强化学习的病床资源配置优化方法。权　利　要　求　书 2/2 页 3 CN 115331796 B 3

专利 基于强化学习的病床资源配置优化方法、系统及终端

专利基于强化学习的病床资源配置优化方法、系统及终端