(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202211263783.3
(22)申请日 2022.10.17
(65)同一申请的已公布的文献号
申请公布号 CN 115331796 A
(43)申请公布日 2022.11.11
(73)专利权人 中科厚立信息技 术 (成都) 有限公
司
地址 610000 四川省成 都市中国 (四川) 自
由贸易试验区成都高新区益州大道中
段1800号1栋17层170 5号
(72)发明人 张北 唐显恒 李涛
(74)专利代理 机构 成都行之智 信知识产权代理
有限公司 5125 6
专利代理师 何筱茂(51)Int.Cl.
G16H 40/20(2018.01)
G06N 20/00(2019.01)
(56)对比文件
EP 0764914 A 2,1997.03.26
CN 112017768 A,2020.12.01
CN 109545 348 A,2019.0 3.29
JP 2006048573 A,20 06.02.16
US 2018348716 A1,2018.12.0 6
审查员 王诗玮
(54)发明名称
基于强化学习的病床资源配置优化方法、 系
统及终端
(57)摘要
本发明公开了基于强化学习的病床资源配
置优化方法、 系统及终端, 涉及资源配置优化技
术领域, 其技术方案要点是: 获取多个科室的病
床配置数据, 并对单一科室的在院患者数进行时
间差异分析, 得到时间差异分布信息; 结合病床
配置数据和时间差异分布信息, 模拟患者入出院
过程建立智能体需要的状态空间、 动作空间以及
奖赏函数; 智能体根据策略函数选择并执行当前
状态对应的动作过程中, 以最大化累计奖赏为目
标, 得到多个科室的病床资源配置优化策略。 本
发明采用机器强化学习(RL)的方法训练智能体,
考虑不同科室疾病在时间分布上的差异情况, 使
得床资源配置优化策略更加符合实际情况, 有效
提高了病床资源配 置优化的准确性与可靠性。
权利要求书2页 说明书6页 附图1页
CN 115331796 B
2022.12.27
CN 115331796 B
1.基于强化学习的病床资源配置优化方法, 其特 征是, 包括以下步骤:
获取多个科室的病床配置数据, 并对单一科室的在院患者数进行时间差异分析, 得到
时间差异分布信息;
结合病床配置数据和时间差异分布信 息, 通过机器强化学习方法模拟患 者入出院过程
建立智能体需要的状态空间、 动作空间以及奖赏 函数;
智能体在根据 策略函数选择并执行当前状态对应的动作过程中, 以最大化累计奖赏为
目标, 得到多个科室的病床资源配置优化策略。
2.根据权利要求1所述的基于强化学习的病床资源配置优化方法, 其特征是, 所述 时间
差异分布信息的获得 过程具体为:
对在院患者数做 滑动平均处 理, 得到标准配置数据;
动态设置 两个相邻且均大于基础步长的第一 步长和第二 步长;
以第一步长与第二步长 中的数据均值之差不小于标准差值为第 一目标, 对标准配置数
据进行搜索分析, 所有搜索确定的第一步长与第二步长所对应的时间段构成时间差异分布
信息。
3.根据权利要求2所述的基于强化学习的病床资源配置优化方法, 其特征是, 以所有所
述第一步长与第二步长中的数据均值之差波动性最大为第二目标确定唯一的时间差异分
布信息。
4.根据权利要求1所述的基于强化学习的病床资源配置优化方法, 其特征是, 所述状态
空间中的变量包括: 患者科室类别、 当前单一科室的在院患者数、 当前单一科室的住院天数
超长患者数、 当前剩余未分配病床数、 日期、 是否节假日以及未入院患者数量。
5.根据权利要求1所述的基于强化学习的病床资源配置优化方法, 其特征是, 所述动作
空间具体为:
若病床高于空置阈值或调整病床周转 率时, 则智能体不分配病床;
若病床不高于空置阈值, 且病床周转 率低于周转 率阈值时, 则 智能体分配病床。
6.根据权利要求1所述的基于强化学习的病床资源配置优化方法, 其特征是, 所述以最
大化累计奖赏 为目标的计算公式具体为:
其中,
表示在时刻t所确定的累计奖赏;
表示第k次动作的奖励衰减值;
表示在
时刻t+k+1的奖赏 值。
7.根据权利要求1所述的基于强化学习的病床资源配置优化方法, 其特征是, 所述以最
大化累计奖赏 为目标的计算公式具体为:
其中,
表示在时刻t所确定的累计奖赏;
表示第k次动作的奖励衰减值;
表示在
时刻t+k+1的奖赏值;
表示时刻t+k+1所属步长
的数据均值;
表示病床配置数
据的数据均值。
8.根据权利要求1所述的基于强化学习的病床资源配置优化方法, 其特征是, 所述以最权 利 要 求 书 1/2 页
2
CN 115331796 B
2大化累计奖赏 为目标的计算公式具体为:
其中,
表示在时刻t所确定的累计奖赏;
表示第k次动作的奖励衰减值;
表示在
时刻t+k+1的奖赏值;
表示时刻t+k+1所属步长
的数据均值;
表示病床配置数
据的数据均值。
9.基于强化学习的病床资源配置优化系统, 其特 征是, 包括:
数据处理模块, 用于获取多个科室的病床配置数据, 并对单一科室的在院患者数进行
时间差异分析, 得到时间差异分布信息;
模型构建模块, 用于结合病床配置数据和时间差异分布信息, 通过机器强化学习方法
模拟患者入出院过程建立智能体需要的状态空间、 动作空间以及奖赏 函数;
配置优化模块, 用于在根据策略函数选择并执行当前状态对应的动作过程中, 以最大
化累计奖赏 为目标, 得到多个科室的病床资源配置优化策略。
10.一种计算机终端, 包含存储器、 处理器及存储在存储器并可在处理器上运行的计算
机程序, 其特征是, 所述处理器执行所述程序时实现如权利要求 1‑8中任意一项 所述的基于
强化学习的病床资源配置优化方法。权 利 要 求 书 2/2 页
3
CN 115331796 B
3
专利 基于强化学习的病床资源配置优化方法、系统及终端
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:12:54上传分享