AI强度相关的研究:康复游戏中难于调整的多周期强化学习
通常,治疗游戏的难度级别由治疗师手动调节。 但是,基于家庭的康复游戏需要用于自动难度调整的技术。 本文提出了一种针对康复游戏的个性化难度调整技术,该技术可根据患者的技能实时自动调节难度设置。 为此,强化学习的思想被用来动态调整游戏的难度。 我们表明难度调整是一个多目标问题,其中一些目标可能在不同时期进行评估。 为了解决这个问题,我们提出并使用多周期强化学习(MPRL),使您可以在不同的时期评估难度调整的不同目标。 实验结果表明,MPRL的用户满意度参数优于传统的多目标强化学习(MORL),并且提高了患者的运动技能。
简介
康复计划是这种情况下恢复的重要部分,可以帮助患者进行认知评估和康复。 有效的康复技术可以帮助患者恢复失去的技能,并再次变得独立。 康复的重点是增强运动,协调或运动控制的范围。 这可以通过执行包括伸手和抓地力的任务来实现。 除了康复过程中的质量和身体活动量外,在治疗过程中积极参与和患者参与至关重要。 但是,康复活动通常被设计为重复的任务,使患者感到沮丧和疲倦。 研究表明,享受康复任务的患者在给定的活动中花费更多的时间发展其技能。 结果,将康复任务设计为治疗游戏可以产生积极的康复环境。 通过增强具有身体和认知意义的锻炼,这种严肃的游戏可以增加康复的数量。
了解康复游戏的特征以及这些特征对游戏难度的影响至关重要。 这使得治疗师可以操纵强度,持续时间,挑战和频率以激励患者。 通过使用动态难度调整(DDA)自动保持患者的血流状态,可以根据用户的技能来适应任务的挑战。正如上述所述,根据玩家能力调整游戏难度时,玩家会更加沉迷于游戏中。
康复游戏的难度级别通常由治疗师在治疗过程中配置。 因此,当游戏难度超出患者的能力范围或挑战性不足时,治疗师将操纵设置来调节游戏。 在[12]中,提出了五个治疗性游戏练习,其中每个练习都涉及一组手动调节的难度参数。 [14]和[15]部分地解决了这个问题,其中,游戏的难度是根据开始时玩家的静态配置文件自动确定的。 但是,随着时间的推移,玩家的技能会发生变化,这需要手动操作参数。
在计算机游戏中实现动态难度调整(DDA)的另一种方法是使用行为规则。 这些规则是在游戏开发阶段基于特定领域的知识定义的。 在Hunicke和Chapman的方法[16]中,游戏设置由一组规则控制。 例如,当游戏太困难时,玩家会收到更多武器或面对更少的对手。 不仅手动定义这样的静态规则是耗时且容易出错的,而且由于游戏和玩家的动态性质,确定选择规则的条件并非易事。 为了解决这个问题,在[17]中提出了一种动态脚本技术,其中基于成功率或失败率将概率分配给选择规则。 但是,随着游戏复杂性的增加,建立和维护这样的规则和概率变得不切实际。
本文提出了一种个性化的难度调整模块,可以根据患者的病情来调整游戏难度。 该系统利用认知过程来在感知和行动之间进行调解。 该模块考虑了缺陷和患者行为的个体差异,以优化康复效果。 本文提出的个性化难度调整系统的总体过程如图1所示。为了实现动态难度调整,我们采用了强化学习(RL)的思想来根据患者的技能调整游戏难度。 本文提出了一种多周期强化学习(MPRL),其中可以在不同的阶段评估不同的目标。我们认为这种技术可以为病人创造游戏体验,其中任务难度适合于其游戏的能力。这样的体验通过满足用户满意度指标来支持玩家的动力。 特别是,本文提出了一种适应性治疗游戏,以改善手臂的功能。 该系统采用了多次强化学习(MPRL),可以在不同的时期处理难度调整的不同目标。 进行了一项中期研究,以评估所提出系统改善患者技能的有效性
DYNAMIC DIFFICULTY ADJUSTMENT(DDA)
难度调整被定义为寻找适当策略以选择能够在游戏中提供良好平衡的游戏属性的过程。 根据流动理论[19],[20],游戏的感知挑战取决于玩家的技能。 基于动机和学习之间的关系理论[21],在中级唤醒水平上可获得人类最有效的表现。 因此,必须调节和平衡游戏的难度(既不难也不易)。 根据该理论,至关重要的是个性化的难度级别,以每个用户自己的能力级别来挑战。 由于可以使用各种属性指定游戏的难度,因此手动调整游戏难度并不是一件容易的事(即使对于治疗师而言)。 此外,在以患者为中心进行治疗的家庭式治疗中,自动设置难度很重要。 该自动化系统必须能够评估患者的表现水平,以调节难度水平。 该系统还必须识别游戏参数对性能的影响,以支持个性化难度级别。 调整必须尽快执行,以保持游戏行为可信[22]。
很少有研究考虑实时调整康复游戏的难度。 在[12]中,提出了一种康复游戏,用于根据到达和抓住目标来训练手部动作受损。 该游戏根据患者的反馈调整难度。 在[24]中,提出了一种在面向任务的神经运动康复中适应媒体的框架,该框架根据玩家的生物反馈来适应难度水平。然而上述方法的难度都是基于静态数据进行调节。实现难度调整目标需要计划,学习和分析玩家与环境之间的互动。 问题在于这些目标可能会大相径庭,有时可能彼此矛盾或强制执行。 因此,必须应用目标融合技术来概括此多目标问题。 我们有动力对在比赛过程中玩家技能动态变化的场景中涉及多目标的多目标难度调整进行概括。
DDA Using Reinforcement Learning
强化学习是一种自动化目标导向学习的计算方法[26],[25]。 本质上,强化学习(RL)是将座席状态(也称为情境)映射到一组操作的过程。 在每个步骤中,RL代理都会确定并执行对环境的最佳操作,以最大化长期回报。 在难度调整问题中,玩家的分数是指示玩家状态的主要参数。 RL代理可以调整难度的动作是更改与难度参数相关的游戏属性(例如,更改游戏环境中移动宪章的速度)。 通过观察更改这些参数的后果,RL代理学会了做出使奖励最大化的决策。
在RL技术中,给定当前状态s,选择一个动作a,该动作导致一个新的状态s',并立即收到回报r(s,a)。 此技术旨在最大化未来奖励的预期价值。 这是通过学习使整体奖励最大化的最佳策略来执行的。 策略是功能7r(s)-+ a,它将状态映射为动作。 从状态s开始并按照以下策略7r执行操作的预期收益称为操作值函数,由Q7r(s,a)表示。 强化学习的常见算法之一是Q学习,它基于以下规则迭代计算作用值函数,其中V(s')= maXa Q(s,a),a是学习率,I是 折扣因子,表示即时奖励相对于未来奖励的重要性。
近年来,RL技术和理论得到了广泛的考虑和扩展,从而导致了一些具有挑战性的现实问题的发展[13]。 多目标强化学习(MORL)是RL的重要变体,它考虑了决策的多个目标。 在这种情况下,Ii是与第i个目标相关的反馈。 在目标之间存在直接关系的情况下,可以通过共同考虑目标来提取单个目标函数。 另一方面,在目标完全不相关的情况下,可以分别考虑奖励功能和决策政策。 当目标冲突或需要在冲突目标之间实现权衡时,就会出现问题。 我们认为动态难度调整是一个多目标的问题,可以通过明确考虑目标并发的解决方案来更好地解决。
康复游戏 with DDA
本文提出的自适应康复游戏是一种基于Kinect的游戏,它使用该运动感应设备来跟踪手臂的运动。 游戏由绿色景观组成,里面布满了许多树木和建筑物。 手臂的物理动作映射到虚拟手臂的动作上,其中玩家控制从第一人称视角观看的角色的手臂。 这种观点可以为这些神经元的多峰种群提供有效的驱动力,并导致诱导与感觉运动控制相关的主要和次要运动区域的更强**。
我们建议并用于测试难度调整的游戏是击中放置在球拱上的球的游戏。 由玩家的动作控制的虚拟角色在游戏中的预定路径中移动。 球的拱门会定期出现在路径上,玩家需要举手以击中拱门上其他球中的亮球。 击中一个正确的球是朝着最终比分累积的胜利。 在这种情况下,将面向任务的动作执行与虚拟手的观察相结合,以创建导致患者功能重组的条件。
游戏的难度级别是根据一组称为游戏属性的参数定义的。 在本文提出的游戏中,确定游戏中任务难度的游戏属性是角色在道路上移动的速度(速度),球的大小(大小)以及球的弓形之间的距离( 距离)。 因此,用户的表现将取决于这些参数。 这些是必须修改的参数,以调节游戏的难度。
Dynamic Difficulty Adjustment Module
尽管对于高级玩家来说,当难以击败时游戏体验会更加令人满意[27],而当挑战者又可战胜[28]时,初学者会喜欢它。 人们普遍认为,游戏不应太容易也不会太困难[29]。 即使游戏属性确定了游戏的难度,难度也是一个取决于玩家能力的相对参数。 在本文提出的康复游戏的背景下,传球拱门的可能结果是击中正确的球(这是胜利),或击中错误的球(这是损失)。 无法击球也被视为损失。 在[30]中,作者认为每场比赛的赢/输保证金都必须很小。 因此,分别以Wand L作为获胜和亏损的总数,当IW-LI = O时,玩家被认为是最满意的。特别是,我们确定了三个指标(目标)来衡量玩家从游戏中获得的满意度。 为了使获胜和失败的次数保持相等,必须将IW-LI最小化(gl)给定ri和rHl,在连续两个回合i和i + 1中,玩家的平均个人得分,以避免大的进步或后退 每回合,我-ri + ll必须最小化。 微小的差异意味着玩家参与了游戏,并尝试通过玩更多游戏来获得更好的得分(g2)。 与上一轮比赛相比,玩家必须感知比赛的进展并取得略高的得分。 为此,必须将连续n轮中的进度数(即2 ::: = O('HI -'i> 0))最大化(g3)'
Need for Multiple-Periodic Reinforcement Learning
我们建议用来衡量玩家从游戏中获得的满意度的指标可以被视为难度调整的目标(目标)。 使用现有的MORL技术解决此问题有一些限制。 首先,现有的强化学习算法是情景式的,其中所有目标均以相同的预定义情节进行评估。 但是,在动态难度调整中,无法同时评估问题的目标。 根据每集结尾处的信息评估一些目标,而为了评估一些目标,还需要先前评估的历史记录。 例如,尽管玩家在每一轮结束时的得分足以决定满足目标gl的程度,但仍需要连续两轮得分(当前轮得分和前轮得分) 以确定是否满足目标g2。 另一方面,需要五轮或更多轮的历史来检查满足g3的程度。 这开启了对多周期强化学习的需求,该学习使得有可能在不同的时期评估不同目标的价值函数。
其次,这个问题需要一种学习方法,该方法可以使不同状态集与不同目标相关联,而无论目标是相互强制还是矛盾。 因此,学习代理可以同时处于关于不同目标的不同状态。 本文提出了多期强化学习(MPRL),以解决这两个问题。 此技术具有定义RL的时间设置的声明性语义以及显示如何计算评估函数的过程性语义。
DIFFICULTY ADJUSTMENT USING MPRL
本文提出的用于动态难度调整的多周期强化学习技术具有三个独特的特征,使该技术与现有的多目标强化学习技术区别开来。 首先,MPRL可以定义多个时间段来评估不同的目标。 我们将说明此设置如何与难度调整目标兼容。 其次,MPRL允许将每个目标与一组不同的状态关联,其中学习代理可以同时处于不同的状态。 第三,MPRL具有一个概率两级动作系统,可以间接更改游戏属性。 这些独特的特性将在下面进行阐述。
Multiple Period
在我们定义的多周期体系结构中,某些目标的评估可能比其他目标更频繁。 经常评估的目标需要较短的结果历史记录,而很少的目标评估需要较长的结果历史记录。 多周期RL的总体体系结构如图2所示。在此图中,X轴上的ti显示游戏的第i轮结束,其中每轮都传球10弓。 两轮之间的距离称为一个周期。 图2显示了三种不同类型的周期,其长度分别为1、2和6轮。垂直虚线表示在每个周期结束时必须评估哪些目标。 在t1,t2,...中评估目标g1,在t2,t4,...中评估目标g2,在t6,t12,...期间评估目标g3。 如果某个时期结束时有多个目标,则“目标融合”组件会根据其严重性参数考虑不同的目标。 给定k个目标g1,...,gk及其对应的严重性参数AI,...,Ab,将计算总奖励,如算法1所示。
Multiple State
在MPRL中,每个目标都与一组状态相关联。 在这种情况下,无论目标是冲突的,一致的还是无关的,它们都与不同的状态关联。 因此,关于不同目标,MPRL代理可以同时处于不同状态。
根据上一节中定义的用户满意度指标,状态定义如下。 对于g1,每轮结束时IW-LI的值(每轮通过10个连续的球弓)指定了与gl相对应的MPRL代理的状态。 特别地,由于W + L = 10,所以关于g1的每一轮的可能结果是S1 = {-10,-8,...,0,...,8,1O}中的值。 在g2的情况下,必须将两个连续回合的得分之间的差异最小化,Iri + 1-ril的值表示MPRL代理关于目标g2的状态。 由于单回合ri的结果可以是0到10之间的数字,因此两个连续回合Iri + 1 -ril之间的差值的可能结果将是S2 = {-10,-9,...,9 ,10}。 为了指示基于目标g3的MPRL代理的状态,连续6个回合的历史记录指示新状态。 识别正确的评估周期很重要,因为短周期会导致随机行为,而长周期则会阻止快速发展。 给定L = o(ri + 1 -ri> 0)作为结果函数,则可能的状态集为S3 = {5,4,3,2,1,O}。 考虑到康复游戏中的目标gl,g2和g3,代理的状态用三元组(81,82,83)表示,其中8i E Si·
Probabilistic Two-level Actions
与现有的直接和显式操作不同,我们提出了一种运行中的概率操作的技术。 在此设置下,执行操作取决于该操作的可能性。 我们定义两种类型的动作:间接动作和直接动作。 间接行动负责执行直接行动的概率的增加/减少。 另一方面,直接动作是环境上可能更改代理状态的实际动作。 在我们的游戏中,直接动作是根据游戏属性的变化(增加或减少)定义的。 自适应单核控制器用于指示如何修改游戏参数(包括速度,大小和距离)以满足目标。 该控制器的一大优势是训练和适应过程在游戏过程中实时进行。
自适应单核控制器存储与游戏属性相对应的六个实数。 如图3(a)所示,染色体是六个实数的数组,其中染色体中的每个位置都对应于控制器中的行为。 实数表示在游戏中**与游戏属性相对应的行为的概率。 前两个位置对应于速度(用于增大速度的PI和用于减小速度的P2),后两个位置对应于尺寸(用于增大尺寸的P3,用于减小尺寸的P4)和后三个位置 对应于距离(PS用于增加距离,P6用于减小距离)。 每个实数表示**游戏参数的控制器(减小或增大)的概率。 在每一轮中,可以根据染色体中的**概率来**任何减少或增加的控制器(1表示**,-1表示去**(图3(b))。