一种个性化的音乐动态情感识别方法及其装置

专利2025-07-13  2


本发明属于情感计算,具体涉及一种个性化的音乐动态情感识别方法及其装置。


背景技术:

1、在当前的数字化时代,音乐情感识别技术已成为改善人机互动和提高用户体验的重要工具。音乐不仅是一种艺术表现形式,也是一种能够深刻影响人类情感和心理状态的媒介。然而,目前的音乐情感识别方法普遍缺乏个性化考量,这种局限性导致识别出的音乐情感标签常常与用户的实际感受存在差异。

2、传统的音乐情感识别技术主要依赖于对音频信号的分析,通过从音乐中提取音高、节奏、音色等显性特征,进而利用标准情感模型(如valence-arousal模型)进行情感分类。这种方法在某种程度上能够有效地识别音乐的情感基调,但难以考虑和反映用户的个人偏好和情感共鸣。实际应用中,用户对同一首音乐可能会有不同的情感反应,这取决于其个体经历、文化背景和情感记忆等多种因素,而现有方法难以针对这些个性化因素进行有效调节。

3、公开号为cn118013036a的发明专利公开了一种基于transformer的图文情感预测方法、装置、介质及产品,涉及信息技术领域,该方法包括:获取目标对象的文本数据和所述文本数据对应的图像数据;对文本数据和图像数据进行预处理,得到处理后的文本数据和光学字符识别的文本数据;对处理后的文本数据、光学字符识别的文本数据和图像数据进行特征提取,得到文本特征和图片特征;根据文本特征和图片特征,利用基于transformer的图文情感分析模型,确定所述目标对象的情感类别。该发明专利申请全面地衡量了图文间信息等因素,合理地利用了模态间信息,尽可能地挖掘了社交媒体平台的多模态情感信息,提高了对社交媒体情感分析的准确性。

4、公开号为cn115062115a的发明专利公开了一种在对话策略中响应情感类别预测方法。所述方法包括以下步骤:知识增强的对话上下文编码模块通过分层transformer网络将前m-1轮的对话历史信息v1:m-1编码为上下文向量表示x1:m-1,并融合对话中的对话特征;潜在情感响应学习模块采用变分网络学习语料中从上下文向量表示x1:m-1到情感响应的映射,从而建模得到潜在分布z;交互情感预测模块将对话上下文编码模块输出的上下文向量表示x1:m-1和潜在分布z作为输入,预测响应情感e′y。该发明专利申请提出的方法实现响应情感类别的预测,赋予对话代理自适应地进行多样化情感表达的能力,缓解目标文本缺失导致的推断合理性问题。

5、市场上已存在一些试图增强个性化体验的应用(如spotify、apple music等),通过分析用户的播放历史或交互行为来推荐音乐。然而,这些工具和上述专利申请公开的情感识别依然局限于通用音频特征的分析,无法真正实现从用户的个性化情感维度进行识别和调整,这就导致系统推荐的音乐与用户实际情感体验的契合度不足,影响了用户的使用满意度和音乐探索体验。

6、因此,开发一种能够识别并适应用户个性化情感反应的动态音乐情感识别技术显得尤为关键。


技术实现思路

1、本发明提供了个性化的音乐动态情感识别方法,该音乐情感识别方法能够实现基于个人的情感倾向对音乐音频进行情感识别。

2、本发明具体实施例提供了一种个性化的音乐动态情感识别方法,包括:

3、获得多个音乐音频和对应的情感标签序列,将多个音乐音频分成训练样本集和验证样本集,随机抽取训练样本和验证样本构建元任务集;

4、构建训练模型,所述训练模型包括时域特征提取模块、频域特征提取模块、transformer和情感预测模块,通过时域特征提取模块将由切割元任务中训练样本得到的多个音频片段进行时域特征提取得到时域特征序列,通过频域特征提取模块将由多个音频片段转换得到的梅尔语谱图序列进行频域特征提取得到频域特征序列,将时域特征序列的时域特征和频域特征序列对应的频域特征进行特征融合得到融合特征序列,通过transformer对融合特征序列的每个融合特征进行特征提取得到情感特征序列,通过情感预测模块对情感特征序列中每个情感特征进行全连接得到由多对valence值和arousal值构建的预测情感识别序列;

5、按照顺序从元任务集中选取元任务训练所述训练模型,其中,首先通过元任务中训练样本训练所述训练模型,基于训练后的训练模型对元任务中验证样本进行情感识别得到预测情感识别序列,基于验证样本的预测情感识别序列和对应的情感标签序列构建的损失函数更新训练模型得到音乐情感识别元模型;

6、应用时,基于用户输入的带有情感标签序列的音乐音频对音乐情感识别元模型再次进行训练得到带有情感倾向的个性化情感识别模型,采用个性化情感识别模型对用户输入的其他音乐音频进行情感识别得到对应的预测情感识别序列。

7、优选地,将时域特征序列的时域特征和频域特征序列对应的频域特征进行特征融合得到融合特征序列,包括:

8、将时域特征序列的时域特征和频域特征序列的频域特征进行对应加和,通过sigmoid激活函数对每个加和后的特征进行激活得到融合特征序列。

9、优选地,基于设定的间隔时间对训练样本进行切割得到多个音频片段。

10、优选地,通过时域特征提取模块将切割训练样本得到的多个音频片段进行时域特征提取得到时域特征序列,所述时域特征提取模块为预训练的imagebind 模型。

11、优选地,多个音频片段转换得到的梅尔语谱图序列,包括:将每个音频片段转换成对应的梅尔语谱图,多个梅尔语谱图构建梅尔语谱图序列;

12、其中,将每个音频片段转换成对应的梅尔语谱图,包括:

13、设定采样率,对音频片段进行采样,对采样得到的音频片段进行高通滤波,对滤波后的音频片段分割成等长的帧,通过施加一个窗口函数对每一帧信号进行截断;

14、对截断的每一帧信号进行傅立叶变换得到每一帧的频谱,计算每一帧频谱的功率谱;

15、通过梅尔滤波器组对频谱进行滤波,同时将线性频率轴转换为梅尔刻度频率轴,得到梅尔语谱图序列。

16、优选地,通过频域特征提取模块将由多个音频片段转换得到的梅尔语谱图序列进行频域特征提取得到频域特征序列,所述频域特征提取模块包括三层卷积神经网络。

17、优选地,通过情感预测模块对情感特征序列中每个情感特征进行全连接得到由多对valence值和arousal值构建的预测情感识别序列,包括:

18、所述情感预测模块为一层全连接层,通过一层全连接层基于每个情感特征得到对应的valence值和arousal值对,多对valence值和arousal值构建预测情感识别序列。

19、本发明具体实施例还提供了一种个性化的音乐动态情感识别装置,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现所述的个性化的音乐动态情感识别方法。

20、与现有技术相比,本发明的有益效果为:

21、本发明通过元任务集训练得到的音乐情感识别元模型能够基于用户的情感需要构建出与用户个性化情感匹配的个性化情感识别模型,通过个性化情感识别模型对音乐音频进行情感识别得到符合用户情感倾向的预测情感识别序列。

22、本发明通过将音乐音频进行切割分段,使得音乐情感识别元模型能够识别出音乐音频各片段的valence值和arousal值,从而得到音乐音频对应的valence曲线和arousal曲线,基于valence曲线和arousal曲线实现情感的准确识别。


技术特征:

1.一种个性化的音乐动态情感识别方法,其特征在于,包括:

2.根据权利要求1所述的个性化的音乐动态情感识别方法,其特征在于,将时域特征序列的时域特征和频域特征序列对应的频域特征进行特征融合得到融合特征序列,包括:

3.根据权利要求1所述的个性化的音乐动态情感识别方法,其特征在于,基于设定的间隔时间对训练样本进行切割得到多个音频片段。

4.根据权利要求1所述的个性化的音乐动态情感识别方法,其特征在于,通过时域特征提取模块将切割训练样本得到的多个音频片段进行时域特征提取得到时域特征序列,所述时域特征提取模块为预训练的imagebind 模型。

5.根据权利要求1所述的个性化的音乐动态情感识别方法,其特征在于,多个音频片段转换得到的梅尔语谱图序列,包括:将每个音频片段转换成对应的梅尔语谱图,多个梅尔语谱图构建梅尔语谱图序列;

6.根据权利要求1所述的个性化的音乐动态情感识别方法,其特征在于,通过频域特征提取模块将由多个音频片段转换得到的梅尔语谱图序列进行频域特征提取得到频域特征序列,所述频域特征提取模块包括三层卷积神经网络。

7.根据权利要求1所述的个性化的音乐动态情感识别方法,其特征在于,通过情感预测模块对情感特征序列中每个情感特征进行全连接得到由多对valence值和arousal值构建的预测情感识别序列,包括:

8.一种个性化的音乐动态情感识别装置,其特征在于,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述一个或多个处理器执行所述可执行代码时,用于实现权利要求1-7中任一项所述的个性化的音乐动态情感识别方法。


技术总结
本发明公开了一种个性化的动态音乐情感识别方法及其装置,本发明通过元任务集训练得到的音乐情感识别元模型能够基于用户的情感需要构建出与用户个性化情感匹配的个性化情感识别模型,通过个性化情感识别模型对音乐音频进行情感识别得到符合用户情感倾向的预测情感识别序列。本发明通过将音乐音频进行切割分段,使得音乐情感识别元模型能够识别出音乐音频各片段的Valence值和Arousal值,从而得到音乐音频对应的Valence曲线和Arousal曲线,基于Valence曲线和Arousal曲线实现情感的准确识别。

技术研发人员:尤伟涛,张邓明,周洺旭,左鹤达,陈培,劳天宇
受保护的技术使用者:浙江大学
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-26124.html