一种基于自然语言指令的高效人机协作策略部署方法

专利2026-02-22 15

本发明涉及一种高效人机协作策略部署方法，尤其涉及的是基于自然语言指令的高效人机协作策略部署方法。

背景技术：

1、人机协作重点强调由人类工作者和人工智能系统组成团队的整体工作结果的综合质量和效率，以期将人工智能系统无缝集成到人类现有的工作流程之中。在协同工作的过程中，需要将人类工作者的经验、知识和理性判断能力与人工智能的高速计算和模式识别能力进行合理融合，打破人类与人工智能系统的信息壁垒，在人类和机器之间实现知识传递，从而充分发挥各自优势，提升协同工作结果的质量和效率。传统的人机协作主要采用自动化控制方法，需要针对不同人类工作者的行为进行建模，并依赖相关领域专家制定协作策略，设计符合实际使用场景的人机协作策略。该类人机协作方法泛化能力较差，缺乏对不同行为风格人类协作者的适应能力，且在面对不同使用场景时往往需要依赖领域专家重新设计协作策略，成本开销高昂。

2、近年来，随着机器学习尤其是深度学习的蓬勃发展，强化学习技术为人机协作提供了新的解决方案。强化学习使得智能体能够在与环境交互的过程中学习，智能体通过与环境交互获得奖赏或惩罚，从而学得能够适应环境并最大化奖赏得策略。在合作多智能体强化学习中，多个智能体同时与环境交互并获得共同的奖赏或惩罚，从而使得多个智能体学会适应队友的行为共同完成协作任务。由于人类协作者参与训练的时间开销和试错成本较高，目前主流方法将人机协作建模为零样本协作问题，将人类协作者的策略建模为多智能体系统中的一个智能体，从而利用协作多智能体强化学习技术进行训练。这类方法通常需要构建多样化的队友种群作为人类代理策略，随后使用多智能体强化学习技术训练单个通用协作策略，或是分别针对不同风格的队友训练多个协作策略，在部署阶段选择最优的协作策略。

3、尽管多智能体强化学习技术已经在人机协作领域取得一定成果，在游戏博弈等领域取得了比传统方法更鲁棒的效果，但在许多真实应用场景如智能协作对抗场景中，不同人类协作者的行为风格通常具有较大的差异，基于强化学习训练的单个通用协作策略会受到多模态队友行为的影响，无法准确识别协作队友，从而影响智能体与人类的协同配合。因此，在面对行为风格多变的人类队友时，通常需要针对不同风格的队友训练多个协作策略，以此应对多模态队友行为对人机协作带来的挑战。然而，在训练好多个协作策略之后，在策略部署阶段，现有方法往往需要先与环境进行少量交互以获得任务特征进而取最优协作策略，成本开销高昂且效率较低。

技术实现思路

1、发明目的：基于目前人机协作存在的问题，如何在试错成本较高的环境下实现高效的人机协作策略部署，即为本发明旨在解决的问题。本发明提出一种基于自然语言指令的高效人机协作策略部署方法，在试错成本较高的实际场景中仅通过少量自然语言指令实现协作策略的生成和部署，能够保证人机协作策略部署的高效性。该方法借助于自然语言指导的条件扩散模型，基于人类队友提供的自然语言指令，为队友生成定制化的协作策略。

2、技术方案：一种基于自然语言指令的高效人机协作策略部署方法，包括如下步骤：

3、步骤1：根据协作场景，定义任务相关的事件，用于构造任务语言表征；

4、步骤2：通过种群训练方法或行为克隆构建多样化的队友种群，作为人类代理策略，并采集队友对应的任务语言表征数据集和自然语言指令数据集；

5、步骤3：为多样化队友种群训练最优协作策略；首先为每个队友策略初始化一个协作策略，然后固定队友策略参数，通过ppo算法训练协作策略到最优协作策略；

6、步骤4：训练策略参数编码模块和策略参数解码模块；策略参数编码模块和策略参数解码模块构成一个策略参数空间上的变分自编码器，通过最小化损失函数联合训练；

7、步骤5：微调bert模型；在bert模型输出端添加全连接层，将bert模型封装为一个自然语言指令分类器，使用自然语言指令数据集，通过最小化交叉熵损失函数进行微调；

8、步骤6：训练语言转换模块；固定微调后的bert模型的参数，仅训练语言转换模块中的变分自编码器，使其能够将bert模型编码后的自然语言指令转换为对应的任务语言表征；

9、步骤7：压缩最优协作策略；借助训练得到的策略参数编码模块，将队友种群的最优协作策略压缩为策略参数表征数据集；

10、步骤8：训练条件扩散模型；使用任务语言表征数据集和策略参数表征数据集，通过最小化损失函数训练条件扩散模型，使条件扩散模型根据任务语言表征生成对应的协作策略参数表征；

11、步骤9：人类队友使用自然语言指令表达其行为偏好或任务要求；

12、步骤10：语言转换模块将自然语言指令转化为任务语言表征；

13、步骤11：随机采样高斯噪声，借助条件扩散模型，反向去噪；

14、步骤12：策略参数解码模块基于协作策略参数表征预测策略网络参数，初始化协作策略网络并加载策略网络参数，得到重构的最优协作策略。

15、若协作过程中人类队友的行为偏好发生改变或任务要求发生改变，可重复上述步骤9至步骤12，根据新的自然语言指令生成最优协作策略并部署。

16、所述步骤2中，通过种群训练方法或行为克隆构建多样化的队友种群，作为人类代理策略，并采集队友对应的任务语言表征数据集和自然语言指令数据集；其中，每个策略对应唯一的任务语言表征和条语义相近的自然语言指令，为队友种群的大小；在训练过程中记录队友策略在轨迹内执行预定义任务相关事件的频率，记为向量；根据下式对向量的各个维度进行离散化得到任务语言表征：

17、

18、其中，为常量，和分别表示lt和v的第i个分量，d为任务相关事件的数量。

19、所述步骤3中，为多样化队友种群训练最优协作策略；首先为每个队友策略初始化一个协作策略，然后固定队友策略参数，通过ppo算法训练协作策略得到最优协作策略；具体地，训练过程中协作策略应配合队友行为风格，最大化累积奖赏：

20、

21、训练过程中将每一步的状态st保存至一个经验回放数组d，用于步骤4训练策略参数编码模块和策略参数解码模块。

22、所述步骤4中，训练策略参数编码模块和策略参数解码模块；策略参数编码模块和策略参数解码模块构成一个策略参数空间上的变分自编码器，通过最小化以下损失函数联合训练：

23、

24、其中，策略参数编码模块输入策略网络各层权重和偏置，分别得到权重表征和偏置表征，拼接和并通过全连接层后输出策略参数表征z；策略参数解码模块基于策略参数表征z和策略结构表征g预测策略网络参数，其中g为包含策略网络各层神经元数量的向量；为通过参数解码模块重构的协作策略，为kullback-leibler散度函数。

25、所述步骤5中，通过最小化以下交叉熵损失函数进行微调，使bert模型能够更准确地捕捉自然语言指令中的语义信息：

26、。

27、所述步骤8中，通过最小化以下损失函数训练条件扩散模型：

28、

29、其中，；；为正向加噪过程第i步所得表征，βi为正向扩散过程中第i步所加高斯噪声方差，αi=1-βi，；为扩散模型根据、当前时间步i和任务语言编码所预测的第i步所加噪声。

30、所述步骤11中，随机采样高斯噪声，借助条件扩散模型，基于下式所描述的反向去噪过程对进行去噪，i取值n到1表示经过n步去噪：

31、

32、其中，，为扩散模型根据、当前时间步i和任务语言编码所预测的第i步所加噪声，βi为正向扩散过程中第i步所加高斯噪声方差，即，，αi=1-βi，，为任务语言表征，用于指导扩散模型对高斯噪声去噪得到协作策略参数表征。

33、一种用于实现上述基于自然语言指令的高效人机协作策略部署方法的系统，包括语言转换模块、策略参数编码模块、条件扩散模型和策略参数解码模块；

34、所述语言转换模块，用于将人类队友的自然语言指令转化为任务语言表征；由一个预训练bert模型和一个变分自编码器组成，能够将人类队友的自然语言指令转化为任务语言编码；具体地，预训练bert模型首先对自然语言指令进行编码，随后变分自编码器将编码后的自然语言指令转化为其所对应的任务语言编码；

35、所述策略参数编码模块，用于将协作策略的参数压缩到低维的隐空间；所述策略参数解码模块，用于从策略参数表征重构协作策略的参数；策略参数编码模块和策略参数解码模块构成变分自编码器，策略参数编码模块和策略参数解码模块以端到端的方式进行同时训练，策略参数编码模块由卷积神经网络和全连接神经网络组成，首先分别通过卷积神经网络和全连接神经网络编码策略网络的权重和偏置，然后将权重表征和偏置表征相结合，最后通过全连接层得到参数表征；

36、所述条件扩散模型，用于任务语言表征生成隐空间中的策略参数表征；条件扩散模型采用u形网络（u-net）作为主体架构，由一个降采样的编码器、一个升采样的解码器和连接二者的瓶颈层组成。解码器各升采样层输出表征与编码器对应层输出表征拼接作为下个升采样层的输入；循环调用扩散模型可以基于、时间步i和任务语言表征对随机初始化的高斯噪声进行去噪，得到任务语言编码对应的协作策略参数表征；对于策略参数表征，正向扩散过程对参数表征逐步添加高斯噪声，反向过程对高斯噪声逐步去噪得到策略参数表征；

37、所述策略参数解码模块包含一个图超网络，能够根据策略参数表征和策略结构表征预测策略网络的参数；在训练阶段，策略参数表征由策略参数编码部分产生；在部署阶段，策略参数表征由条件扩散模型产生；在给定策略网络结构的情况下，策略结构表征为固定的向量，其分量表示策略网络每一层的神经元个数；

38、语言转换模块和条件扩散模型分别独立训练。

39、一种计算机设备，该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如上所述的基于自然语言指令的高效人机协作策略部署方法的步骤。

40、一种计算机可读存储介质，该计算机可读存储介质存储有执行如上所述的基于自然语言指令的高效人机协作策略部署方法的计算机程序。

41、有益效果：本发明提供了一种基于自然语言指令的高效人机协作策略部署方法，借助条件扩散模型的强大表达能力，在与人类队友协作时，仅通过队友的少量自然语言指令即可生成定制化的协作策略并协同完成任务，可有效避免在策略部署阶段与环境交互带来的高昂成本和效率低下问题。本发明可应用于游戏博弈、智能协作对抗以及家用机器人等诸多领域，具有广泛的应用前景。

技术特征：

1.一种基于自然语言指令的高效人机协作策略部署方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于自然语言指令的高效人机协作策略部署方法，其特征在于，若协作过程中人类队友的行为偏好发生改变或任务要求发生改变，重复所述步骤9至步骤12，根据新的自然语言指令生成最优协作策略并部署。

3.根据权利要求1所述的基于自然语言指令的高效人机协作策略部署方法，其特征在于，所述步骤2中，通过种群训练方法或行为克隆构建多样化的队友种群，作为人类代理策略，并采集队友对应的任务语言表征数据集和自然语言指令数据集；在训练过程中记录队友策略在轨迹内执行预定义任务相关事件的频率，记为向量v；对向量v的各个维度进行离散化得到任务语言表征lt。

4.根据权利要求1所述的基于自然语言指令的高效人机协作策略部署方法，其特征在于，所述步骤3中，为多样化队友种群训练最优协作策略；首先为每个队友策略πh初始化一个协作策略πe，然后固定队友策略参数，通过ppo算法训练协作策略πe得到最优协作策略πbr；训练过程中将每一步的状态st保存至一个经验回放数组d，用于步骤4训练策略参数编码模块和策略参数解码模块。

5.根据权利要求1所述的基于自然语言指令的高效人机协作策略部署方法，其特征在于，所述步骤11中，随机采样高斯噪声xn～n(0,i)借助条件扩散模型，基于下式所描述的反向去噪过程对高斯噪声xi进行去噪：，

6.一种用于实现权利要求1-5任意一项所述基于自然语言指令的高效人机协作策略部署方法的系统，其特征在于，包括语言转换模块、策略参数编码模块、条件扩散模型和策略参数解码模块；

7.一种计算机设备，其特征在于：该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行上述计算机程序时实现如权利要求1-5中任一项所述的基于自然语言指令的高效人机协作策略部署方法的步骤。

8.一种计算机可读存储介质，其特征在于：该计算机可读存储介质存储有执行如权利要求1-5中任一项所述的基于自然语言指令的高效人机协作策略部署方法的计算机程序。

技术总结
本发明公开一种基于自然语言指令的高效人机协作策略部署方法，该方法借助于自然语言指导的条件扩散模型的强大表征能力，将多样化队友的最优协作策略参数压缩为单个条件扩散模型，在部署阶段基于人类队友提供的自然语言指令，为队友生成定制化的协作策略。该方法能够在试错成本较高的实际场景中仅通过少量自然语言指令实现协作策略的生成和部署，能够保证人机协作策略部署的高效性。

技术研发人员：袁雷,俞扬,周志华,林锟珉,张子谦,李立和
受保护的技术使用者：南京大学
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-30027.html