本发明涉及数据分析,具体涉及一种社交网络用户文本情感分析方法和装置。
背景技术:
1、随着互联网的迅速发展和普及,出现了大量在线社交网络,它们已经成为人们分享、传播和获取信息的主要平台。用户可以在平台上发布文本表达情感,同时也有大量用户通过点赞、转发和评论等行为间接表达自己的情感。
2、现有技术对社交网络用户文本的情感分析主要集中在自然语言处理领域,通过将文本进行分词和极性标注,利用情感词典、机器学习、深度学习等方法对一段文本包含的情感进行分析。对社交网网络进行准确的情感分析在市场调查、舆情管控等领域具有重要意义。
3、现有的方法大多将社交网络文本单独判断情感,没有其在社交网络的结构和文本在社交网络中的关联性,导致部分情感判断结果不准确甚至错误。
技术实现思路
1、有鉴于此,本发明提供了一种社交网络用户文本情感分析方法,能够提升情感判断的准确性。
2、为了解决上述技术问题,本发明是这样实现的。
3、一种社交网络用户文本情感分析方法,包括:
4、步骤1:根据社交网络传播关系数据,构建社交网络有向图结构;计算社交网络有向图结构中每个用户节点的结构特征,包括k-shell值和局部聚类系数;用户节点的用户基本属性和结构特征构成用户特征向量序列;
5、步骤2:根据k-shell值和局部聚类系数,筛选出k-shell值和局部聚类系数较大的设定数量或比例的部分用户节点,为这些用户的用户特征向量序列标注文本情感属性;用户特征向量序列和标注的文本情感属性构成训练样本;
6、步骤3:根据社交网络有向图结构和步骤2的标注,构建半监督神经网络损失函数;
7、步骤4:基于社交网络有向图结构,构建动态双向图注意力网络作为预测网络,区分每个用户对出度邻居和入度邻居的注意力权重;基于训练样本和半监督神经网络损失函数对所述预测网络进行训练优化;
8、步骤5:分析时,提取用户的用户特征向量序列输入预测网络,预测用户文本的情感类型。
9、优选地,步骤1中,根据社交网络有向图结构计算所述k-shell值的算方式为:
10、确定社交网络有向图结构中每个用户节点的度数;所述度数为与当前用户节点直接相连的其他用户节点数量;
11、递归移除用户节点:令k值取社交网络有向图结构中所有节点度数的最小值,移除所有度数为k的用户节点,并将这些用户节点的k-shell值标记为k;在每次移除后,重新计算社交网络有向图结构中剩余部分的每个用户节点的度数,直到当前社交网络有向图结构中不再有度数等于k的用户节点;
12、将k值更新为当前社交网络有向图结构中所有节点度数的最小值,移除所有度数为k的用户节点,并将这些用户节点的k-shell值标记为当前k值,重复这一过程;完成所有用户节点的k-shell值标注。
13、优选地,步骤1中,根据社交网络有向图结构计算所述局部聚类系数的方式为:
14、
15、其中,cv表示节点v的局部聚类系数,e表示与节点v相邻的所有节点之间实际存在的边数,k(v)表示社交网络有向图结构中节点v的度数,即节点v直接连接的其他节点总数。
16、优选地,步骤2中,所述筛选出k-shell值和局部聚类系数较大的设定数量或比例的部分用户节点为:
17、根据k-shell值和局部聚类系数,筛选出前20%的用户节点,标注文本情感属性。
18、优选地,步骤3中,构建的所述半监督神经网络损失函数由三部分构成,分别为基于已标注数据的交叉熵损失函数项l1、基于聚类假设的均方误差损失函数项l2,以及基于平滑性假设的图总变差损失函数项l3;
19、对设定数量或占比的已标注数据,交叉熵损失函数项l1如下:
20、
21、其中,vl是已标注用户节点集合,yl是已标注用户节点集合中用户节点的标注标签,是对应的预测标签,h是交叉熵计算函数;
22、基于聚类假设,考虑到对同一数据增加微扰后分类结果不变,均方误差损失函数项l2如下:
23、
24、其中,dmse是均方误差计算函数,vu是未标注用户节点集合,是未标注用户节点集合中用户节点的预测标签,是对应的在嵌入过程中为未标注用户节点添加高斯噪声后的预测标签;
25、基于平滑性假设,图总变差损失函数项l3如下:
26、
27、其中,v是所有用户节点集合,ωij是用户节点i,j直接的权重系数,y是所有用户节点的用户特征向量序列构成的矩阵,l是构建的社交网络有向图结构的拉普拉斯矩阵。
28、优选地,步骤4中,交叉熵损失函数项l1、均方误差损失函数项l2和图总变差损失函数项l3采用加权形式构建对动态双向图注意力网络进行训练的半监督神经网络损失函数如下:
29、
30、其中,l1权值固定为1,η和μ是防止过拟合的权重系数,μ是时变的,随训练次数而减小。
31、优选地,所述步骤4所构建的动态双向图注意力网络在图注意力网络中修改了网络层的运算顺序,该动态双向图注意力网络的动态双向注意力αijout和ijin计算方式如下:
32、
33、其中,eout(hi,hj)和ein(hi,hj)为中间量;hi和hj为用户节点i,j在网络层中的表示,leakyrelu为激活函数,∥表示向量拼接操作,a1t,a2t,w1,w2为神经网络训练学习的参数,和分别为用户节点i的出度邻域集合和入度邻域集合,exp为指数函数。
34、优选地,所述动态双向图注意力网络中,用户节点表示向量更新规则为:
35、
36、其中,hi(m+1)为用户节点i在动态双向图注意力网络第m+1层的表示向量,λ和θ为定义的出度注意力权重和入度注意力权重系数。
37、本发明还提供了一种社交网络用户文本情感分析装置,包括有向图结构及用户特征向量嵌入模块、半监督用户节点筛选模块、损失函数构建模块、动态双向注意力模块、优化模块和预测模块;
38、所述有向图结构及用户特征向量嵌入模块,用于根据社交网络传播关系数据,构建社交网络有向图结构;计算社交网络有向图结构中每个用户节点的结构特征,包括k-shell值和局部聚类系数;用户节点的用户基本属性和结构特征构成用户特征向量序列;
39、所述半监督用户节点筛选模块,用于根据k-shell值和局部聚类系数,筛选出k-shell值和局部聚类系数较大的设定数量或比例的部分用户节点,标注文本情感属性;用户特征向量序列和标注的文本情感属性构成训练样本;
40、所述损失函数构建模块,用于根据社交网络有向图结构和对部分用户节点的标注,为用户特征向量序列中的标注数据、未标注数据和全部数据,构建各自的损失函数项然后进行综合获得半监督神经网络损失函数;
41、所述动态双向注意力模块,用于基于社交网络有向图结构,构建动态双向图注意力网络作为预测网络,区分每个用户对出度邻居和入度邻居的注意力权重;
42、所述优化模块,用于利用训练样本和对半监督神经网络损失函数所述预测网络进行训练优化;
43、所述预测模块,用于利用所述有向图结构及用户特征向量嵌入模块提取用户的用户特征向量序列,输入所述动态双向注意力模块构建的预测网络,预测用户文本的情感类型。
44、优选地,所述损失函数构建模块构建的半监督神经网络损失函数由三部分构成,分别为基于已标注数据的交叉熵损失函数项l1、基于聚类假设的均方误差损失函数项l2,以及基于平滑性假设的图总变差损失函数项l3;
45、对设定数量或占比的已标注数据,交叉熵损失函数项l1如下:
46、
47、其中,vl是已标注用户节点集合,yl是已标注用户节点集合中用户节点的标注标签,是对应的预测标签,h是交叉熵计算函数;
48、基于聚类假设,考虑到对同一数据增加微扰后分类结果不变,均方误差损失函数项l2如下:
49、
50、其中,dmse是均方误差计算函数,vu是未标注用户节点集合,是未标注用户节点集合中用户节点的预测标签,是对应的在嵌入过程中为未标注用户节点添加高斯噪声后的预测标签;
51、基于平滑性假设,图总变差损失函数项l3如下:
52、
53、其中,v是所有用户节点集合,ωij是用户节点i,j直接的权重系数,y是所有用户节点的用户特征向量序列构成的矩阵,l是构建的社交网络有向图结构的拉普拉斯矩阵;
54、那么半监督神经网络损失函数如下:
55、
56、其中,l1权值固定为1,η和是防止过拟合的权重系数,μ是时变的,随训练次数而减小。
57、有益效果:
58、(1)本发明没有单独利用文本判断情感,而是考虑了社交网络的结构和文本在社交网络中的关联性,在标注数据的选择和动态双向注意力网络的构建方面均考虑了社交网络的结构。其中,在标注数据方面,基于图结构,包括重要度(k-shell)和聚集度(局部聚类系数),选择部分数据进行标注,选择重要度和聚集度更高的数据进行训练,效果更好。在预测网络设计方面,与现有的情感分析方法不同,本发明使用社交网络图结构设计动态双向注意力网络,可以极大程度上利用社交媒体传播图数据的结构特性,捕捉用户文本之间的潜在关系,从而提升情感判断的准确性。
59、(2)本发明在构建神经网络损失函数时,基于聚类假设设计未标注数据的损失函数项,基于平滑性假设设计损失函数项,聚类假设考虑到同一数据加微扰后分类结构不变,平滑性假设考虑函数输出变化的连续和平滑,聚类假设和平滑性假设的考虑,使得采用该损失函数对预测模型的优化效果更为快速和准确
60、(3)采用本发明方便对内容的舆论环境进行分析,帮助平台实现对内容的更精准管控,也促进社交媒体平台的发展。
1.一种社交网络用户文本情感分析方法,其特征在于,包括:
2.如权利要求1所述的方法,其特征在于,步骤1中,根据社交网络有向图结构计算所述k-shell值的算方式为:
3.如权利要求1所述的方法,其特征在于,步骤1中,根据社交网络有向图结构计算所述局部聚类系数的方式为:
4.如权利要求1所述的方法,其特征在于,步骤2中,所述筛选出k-shell值和局部聚类系数较大的设定数量或比例的部分用户节点为:
5.如权利要求1所述的方法,其特征在于,步骤3中,构建的所述半监督神经网络损失函数由三部分构成,分别为基于已标注数据的交叉熵损失函数项l1、基于聚类假设的均方误差损失函数项l2,以及基于平滑性假设的图总变差损失函数项l3;
6.如权利要求5所述的方法,其特征在于,步骤4中,交叉熵损失函数项l1、均方误差损失函数项l2和图总变差损失函数项l3采用加权形式构建对动态双向图注意力网络进行训练的半监督神经网络损失函数如下:
7.如权利要求1所述的方法,其特征在于,所述步骤4所构建的动态双向图注意力网络在图注意力网络中交换了at线性层和leakyrelu层的运算顺序,该动态双向图注意力网络的动态双向注意力αijout和αijin计算方式如下:
8.如权利要求7所述的方法,其特征在于,所述动态双向图注意力网络中,用户节点表示向量更新规则为:
9.一种社交网络用户文本情感分析装置,其特征在于,包括有向图结构及用户特征向量嵌入模块、半监督用户节点筛选模块、损失函数构建模块、动态双向注意力模块、优化模块和预测模块;
10.如权利要求9所述的装置,其特征在于,所述损失函数构建模块构建的半监督神经网络损失函数由三部分构成,分别为基于已标注数据的交叉熵损失函数项l1、基于聚类假设的均方误差损失函数项l2,以及基于平滑性假设的图总变差损失函数项l3;
