序贯决策

科技工作者之家 2020-11-17

序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略),是用于随机性或不确定性动态系统最优化的决策方法。

基本概念有些决策问题,决策者仅作一次决策即可,这类决策方法称单阶段决策。在社会主义市场经济条件下,企业的经营活动为适应市场激烈竞争的需要,不仅需要单阶段决策,更需要进行多阶段决策,即序贯决策。

序贯决策是指按时间顺序排列起来,以得到按顺序的各种决策(策略)。也就是在时间上有先后之别的多阶段决策方法,也称动态决策法。多阶段决策的每一个阶段都需作出决策,从而使整个过程达到最优。多阶段的选取不是任意决定的,它依赖于当前面临的状态,不给以后的发展产生影响,从而影响整个过程的活动。当各个阶段的决策确定后,就组成了问题的决策序列或策略,称为决策集合。1

特点无后效性。序贯决策是前一阶段决策方案的选择,直接影响到后一阶段决策方案的选择,后一阶段决策方案的选择取决于前一阶段决策方案的结果。

多阶段性。序贯决策具有在时间上有先后之别的多阶段决策。决策者关心的是多阶段决策的总结果,而不是各阶段的当即结果。

预测性。决策的实施是对各采用的多种可行方案进行比较,择其最优。序贯决策若对各种可行方案的前景加以预测,在预测的结果中会显示出最优可行方案。

条件性。序贯决策是根据最优性原理求解,问题是所涉及的过程都要满足一定的条件,即马尔柯夫性。也就是利用转移概率矩阵和相应的利润矩阵对不同方案在作出预测的基础上进行决策。

连续性。每个阶段所面临的状态,带有各自的不确定性,需要对每一个阶段作出决策,下一个阶段决策是在前一个阶段决策基础上再进行决策,这样连续进行,形成一序列方案。1

过程从初始状态开始,每个时刻作出最优决策后,接着观察下一步实际出现的状态,即收集新的信息,然后再作出新的最优决策,反复进行直至最后。

系统在每次作出决策后下一步可能出现的状态是不能确切预知的,存在两种情况:

系统下一步可能出现的状态的概率分布是已知的,可用客观概率的条件分布来描述。对于这类系统的序贯决策研究得较完满的是状态转移律具有无后效性的系统,相应的序贯决策称为马尔可夫决策过程,它是将马尔可夫过程理论与决定性动态规划相结合的产物。

系统下一步可能出现的状态的概率分布不知道,只能用主观概率的条件分布来描述。用于这类系统的序贯决策属于决策分析的内容。2

应用有些决策问题,在进行决策后又产生一些新情况,需要进行新的决策,接着又有一些新的情况,又需要进行新的决策。这样决策、情况、决策…,就构成一个序列,这就是序贯决策。与多阶段决策中阶段数确定相比,序贯决策中决策过程阶段数并不明显,也没有明确的结束阶段,其决策阶段数依赖于决策过程中出现的状况。序贯决策是马尔可夫决策的一种,它主要研究的对象是运行系统的状态和状态的转移。即根据变量的现实状态及其发展变化趋势,预测它在未来可能出现的状态,以做出正确决策。

序贯决策方法广泛应用于物流配送车辆调度、家电产品运营、应急资源配置等情况。应用序贯决策方法,可大大减少计算量。同时,对于给定的动态系统而言,初始状态向量为已知,系统经过相当长时间运行后,所选择的一序列方案,是每一阶段的平均收益最大的方案,因此,序贯决策方法是一种简单而又实用的决策方法。3

本词条内容贡献者为:

胡建平 - 副教授 - 西北工业大学

科技工作者之家

科技工作者之家APP是专注科技人才,知识分享与人才交流的服务平台。