一种音视频系统集成会议系统的制作方法

专利2025-06-10 45

本发明属于远程会议，具体是一种音视频系统集成会议系统。

背景技术：

1、音视频系统集成会议是通过各种先进的设备和技术，实现音频的清晰传输、视频的高质量显示以及会议的互动功能的会议系统，音视频系统集成会议广泛应用于企业、政府、教育等领域，用于远程会议、培训、研讨会等场合，节省时间和成本，提高工作效率。

2、现有的音视频系统集成会议系统，在使用时由于会议参与人员众多，会议的主讲人无法把握每一位与会人员在会议过程中的专注度，并且无法在会议过程中根据与会人员的专注度获得当前会议的参与效果，无法根据现场的实时情况及时做出调整，存在实用低下的问题，且无法在会议过程中对于专注度低的参与者进行适当提醒，无法对于主讲人的会议内容进行实时总结，存在功能性低下的问题。

3、针对上述，本案提出一种音视频系统集成会议系统，以解决上述技术问题。

技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题之一。为此，本发明提出一种音视频系统集成会议系统，通过改善检测方式和处理方式以解决上述技术问题。

2、为了实现上述目的，本发明采用了如下技术方案：

3、一种音视频系统集成会议系统，包括信息认证模块、音频传输模块、视频传输模块、会议效果检测模块、综合总结模块；

4、所述信息认证模块，基于参与人员的个人信息注册登录账号，并设置权限授予功能；

5、所述音频传输模块，包括音频采集设备，负责在会议中进行音频信号的捕捉、传输和处理，确保与会人员能够清晰地听到彼此的声音；

6、所述视频传输模块，包括高清摄像头，负责视频信号的捕捉、传输和显示，确保与会人员能够清晰地看到彼此的视频图像，并传输数据进入后续模块中；

7、所述会议效果检测模块，基于音频传输模块与视频传输模块的相关信息，对于参与者的会议效果进行检测，通过提取参与者的视线，对于参与者的专注度进行评价；

8、所述综合总结模块，通过收集主讲人的会议内容，结合音频传输模块与视频传输模块的信息，对于会议内容进行重点总结与归纳，并在会议结束后传输总结内容进入参与者的账号中。

9、进一步的，所述会议效果检测模块，基于音频传输模块与视频传输模块的相关信息，对于参与者的会议效果进行检测，通过提取参与者的视线，对于参与者的专注度进行评价，包括以下步骤：

10、通过参与者设备的高清摄像头实时捕捉图像，基于面部检测算法识别参与者的面部区域，并在面部图像中定位眼睛区域，提取瞳孔中心，基于眼睛位置和瞳孔中心计算视线方向，同时在会议界面上确定主讲人的画面区域，建立二维坐标系统，将参与者的视线方向映射到主讲人画面上的相应位置；

11、基于注视时长与会议进行时间，对于相关参与人的专注度进行判定与等级划分，同时收集所有参与人的专注度，计算专注度占比并传输至主讲人界面处，对于会议效果进行评分。

12、进一步的，通过参与者设备的高清摄像头实时捕捉图像，基于面部检测算法识别参与者的面部区域，并在面部图像中定位眼睛区域，提取瞳孔中心，基于眼睛位置和瞳孔中心计算视线方向，其具体的步骤为：

13、通过高清摄像头实时捕捉参与者的图像if，基于harr级联分类器提取图像中参与者的面部区域rf，其算法公式为：

14、

15、其中，λ代表harr特征值，是矩形区域a的像素强度总和，是矩形区域b的像素强度总和，通过对比不同区域的像素值来提取面部的特征信息，通过adaboost算法训练级联分类器，使用滑动窗口在图像中移动，并在每个窗口内应用分类器，每个窗口区域的特征值会传递给级联分类器进行面部检测，识别图像中的面部区域rf；

16、通过harr级联分类器对rf内的图像进行眼睛区域re检测，其中眼睛区域re为一个矩形框，表示眼睛在面部区域内的位置；

17、通过canny边缘检测算法提取眼睛区域re的边缘特征，并在边缘检测结果中，找到瞳孔的边缘，对边缘检测结果应用霍夫变换，检测圆形边缘，确定瞳孔的中心位置，其具体的算法公式为：

18、

19、其中，e0(x0,y0)代表瞳孔中心坐标，x、y为霍夫圆变换中的圆心坐标，r代表霍夫圆变换中的圆的半径，v(x,y,r)则是霍夫圆变换中某个圆心坐标(x,y)与半径r积累的投票数，用于检测圆心位置；

20、通过计算眼睛中心位置结合瞳孔中心位置，对于视线方向进行获取，通过计算眼睛区域re的几何中心，获得眼睛中心位置坐标e1(x1,y1)，其算法公式为：

21、

22、其中，xleft、xright分别代表眼睛区域左边界的x坐标与眼睛区域右边界的x坐标，ytop、ybottom分别代表眼睛区域上边界的y坐标与眼睛区域下边界的y坐标，视线方向则为瞳孔中心位置与眼睛中心位置之间的矢量：

23、θ＝(x0-x1,y0-y1)；

24、其中，θ为视线方向，x0代表瞳孔中心的x坐标，x1代表眼睛区域的几何中心的x坐标，y0代表瞳孔中心的y坐标，y1代表眼睛区域的几何中心的y坐标。

25、进一步的，在会议界面上确定主讲人的画面区域，建立二维坐标系统，将参与者的视线方向映射到主讲人画面上的相应位置，包括以下步骤：

26、从会议画面识别出主讲人画面区域rs，其中：

27、rs＝(xl,yt,xr,yb)；

28、其中，xl,yt,xr,yb分别代表主讲人区域的左边界x坐标、主讲人区域的上边界y坐标、主讲人区域的右边界x坐标、主讲人区域的下边界y坐标，并建立坐标系；

29、基于视线方向θ，将参与者的视线方向映射到主讲人画面上的位置，其算法公式为：

30、y＝(x原+k·(x0-x1),y原+k·(y0-y1))；

31、其中，y代表映射点，x原、y原代表主讲人画面区域的坐标系原点，k为缩放因子，用以调整视线方向的大小以匹配主讲人画面的尺寸；

32、对于映射点坐标进行边界判定，当：

33、xl≤x原+k·(x0-x1)≤xr且yt≤y原+k·(y0-y1)≤yb时，代表参与人视线在主讲人画面区域内，当上述任一不满足时，则代表参与人视线不在主讲人画面区域内。

34、进一步的，基于注视时长与会议进行时间，对于相关参与人的专注度进行判定与等级划分，同时收集所有参与人的专注度，计算专注度占比并传输至主讲人界面处，对于会议效果进行评分，其具体的步骤为：

35、当映射点坐标满足：

36、xl≤x原+k·(x0-x1)≤xr且yt≤y原+k·(y0-y1)≤yb时，记录参与人的注视开始时间和结束时间，获得当次注视持续时间δt：

37、δt＝t结束-t开始；

38、累计当前参与人所有注视事件的时长，其算法公式为：

39、

40、其中，t代表相关参与人的总注视时长，δti代表第i个注视事件的时长，n是注视事件的总数，记录当前会议时长δt会议＝t会议开始-t当前时间，计算相关参与人当前专注度：

41、

42、其中，f为相关参与人当前专注度，基于f的数值判定相关参与人的专注度情况：

43、当80＜f≤100时，代表相关参与人专注度高；

44、当60＜f≤80时，代表相关参与人专注度中等；

45、当f≤60时，代表相关参与人专注度低；

46、记录获得专注度高人群数量a与专注度中等人群数量b，结合当前参与会议总人数p，计算占比l对于当前会议效果进行评分，并传输至主讲人界面处，其算法公式为：

47、

48、当70＜l≤100时，代表当前会议效果优秀；

49、当50＜l≤70时，代表当前会议效果一般；

50、当l≤50时，代表当前会议效果很差。

51、进一步的，会议效果检测模块中还设置有提醒系统，在会议过程中收集会议内容，同时生成简单判断题，发送至参与度低的参与者界面上，进行互动提醒，其具体的步骤为：

52、在会议过程中实时收集会议内容，并通过录音转文本技术和自然语言处理技术进行内容转化，通过txtrank算法识别会议内容中的关键点和重要信息，提取出重要陈述句或信息；

53、通过预定义模板，并根据提取出的文本中的信息或陈述句填入模板来生成判断题，对于f≤60的相关参与人，按照5分钟间隔进行题目发送，同时对于相关参与人账号进行标记，其具体的步骤为：

54、对于参与人每次问题获得时间进行记录，同时对于每次问题进行标号，对于任三次问题接收时间进行判定：

55、

56、当δt＝10时，则代表相关参与人连续三次接收到问题提醒，传输异常信号进入信息认证模块中，对于相关参与人进行红色标记，其中代表当前收到问题的时间，代表以往后推移两次获得问题的时间；

57、记录相关参与人当次会议总获得问题数量k总，其中：

58、k总＝k1+...+ki；

59、其中，ki代表获得的问题，当k总＞6时，传输异常信号进入信息认证模块中，对于相关参与人进行红色标记。

60、进一步的，所述综合总结模块，通过收集主讲人的会议内容，结合音频传输模块与视频传输模块的信息，对于会议内容进行重点总结与归纳，并在会议结束后传输总结内容进入参与者的账号中，具体的步骤为：

61、通过音频传输模块收集会议中的主讲人的音频数据，对于音频中的音调进行特征提取，基于音调的变化分析情感的强度，使用自然语言处理模型提取关键词，并与音调变化的时间点进行关联，结合从音调和文本中提取的信息，使用自然语言生成模型生成会议重点总结文本；

62、根据信息认证模块的信息，获得会议参与人的邮箱地址，在会议结束后通过邮件发送会议重点总结文本至会议参与人邮箱中。

63、进一步的，所述通过音频传输模块收集会议中的主讲人的音频数据，对于音频中的音调进行特征提取，基于音调的变化分析情感的强度，使用自然语言处理模型提取关键词，并与音调变化的时间点进行关联，结合从音调和文本中提取的信息，使用自然语言生成模型生成会议重点总结文本，其具体的步骤为：

64、通过音频传输模块收集会议中的主讲人的音频数据，对于音频数据进行音调提取，包括以下步骤：

65、将音频信号分成短时间窗，对每个窗应用傅里叶变换，得到频谱信息，涉及以下公式为：

66、

67、其中，x(t,f)代表在时间t和频率f下的频谱信息，x(n)代表音频信号在时间点n的值，ω(n-t)代表窗函数，e-2jπfn为复指数函数，n代表离散时间索引；

68、通过对频谱进行分析得到基频，即音调：

69、

70、其中，r(τ)代表自相关函数，x(t)为音频信号在时间点t的值，x(t+τ)代表音频信号在时间点t+τ的值，τ为时间延迟，n代表信号的总样本数；

71、找到自相关函数r(τ)的第一个主要峰值，即最大值对应的延迟τmax，计算获得基频f0：

72、

73、基于获得的基频数据，检测音调的波动与突变：

74、δf0(t)＝|f0(t)-f0(t-δt)|；

75、其中，δf0(t)代表时间t时刻的音调变化量，f0(t)代表时间t时刻的基频，f0(t-δt)为时间t-δt时刻的基频，δt代表时间间隔，用于计算音调变化；

76、通过自然语言处理模型nlp中的自动语音识别系统asr将会议音频转换为文本，通过tf-idf从转录文本中提取关键词，将音调变化的时间点与关键词提取的文本时间点进行对齐，结合音调变化和关键词提取结果识别重点内容：

77、s(i)＝α·δf0(i)+β·t(i)；

78、其中，s(i)代表第i个时间段的重点内容评分，δf0(i)代表第i个时间段的音调变化量，t(i)代表第i个时间段的关键词tf-idf分数，α、β代表权重系数，根据重点内容评分提取会议的主要内容，通过自然语言生成模型nlg来生成连贯的总结，即会议重点总结文本。

79、进一步的，所述信息认证模块，基于参与人员的个人信息注册登录账号，包括手机号、邮箱，通过管理员账号对于特殊账号发放权限，包括主讲人、特邀嘉宾，并设置权限授予功能，包括发言权限、屏幕共享权限；

80、所述音频传输模块，包括音频采集设备、麦克风阵列，负责在会议中进行音频信号的捕捉、传输和处理，同时集成噪音消除和回声抑制技术，使用过程中根据网络状况自动调整音频传输参数，避免延迟和丢包，确保与会人员能够清晰地听到彼此的声音；

81、所述视频传输模块，包括高清摄像头，通过对高清摄像头的管理和控制，负责高清视频的捕捉和传输，确保与会人员能够清晰地看到彼此的视频图像，并传输视频数据进入会议效果检测模块中。

82、与现有技术相比，本发明的有益效果是：

83、1、在本发明中，通过设置会议效果检测模块，通过对于会议过程中参与人的视线方向进行获取，结合主讲人的画面分析参与人的视线位置，对于参与人在会议过程中的专注度进行评价，从而客观评价与会人员在会议过程中的专注度，通过实时监测调动与会人员的主观能动性；

84、2、在本发明中，通过对于所有与会人员的专注度进行收集，在会议过程中对于当前会议效果进行评分，实时获取整个会议的效果情况，并传输至主讲人界面处，便于主讲人根据会议的实际情况掌握会议节奏，调整会议内容的深度和节奏；

85、3、在本发明中，通过及时获取专注度数据，主讲人可以有效控制和维持参与者的专注状态，减少会议中的分心现象，进一步提升会议质量，增强了该系统的功能性与实用性。

86、4、在本发明中，通过对于参与人会议过程中的专注度进行等级划分，基于固定的时间间隔对于低参与度的参与人，生成会议相关简单判断题并发送至参与人界面处，能够在参与者的注意力下降时引起他们的关注，帮助他们重新集中注意力，从而提高会议参与度；

87、5、在本发明中，针对多次注意力不集中的参与人，对于相关参与人的账号档案进行标记，便于主讲人与这些参与者的进一步沟通，帮助会议组织者和主讲人更好地管理和调整会议；

88、6、在本发明中，通过设置综合总结模块，基于主讲人的音调以及会议内容，生成会议重点内容总结文本并传输至每一位与会人员的邮箱中，为与会人员提供清晰、简洁的会议总结，有助于他们快速回顾和理解会议的核心内容；

89、整个音视频系统集成会议系统，能够实现音视频传输、专注度检测、会议内容总结，有效提高了会议的互动性和效果，有助于提高音视频会议的效果，提高与会人员在会议过程中的参与度。

技术特征：

1.一种音视频系统集成会议系统，其特征在于：包括信息认证模块、音频传输模块、视频传输模块、会议效果检测模块、综合总结模块；

2.根据权利要求1所述的一种音视频系统集成会议系统，其特征在于：所述会议效果检测模块，基于音频传输模块与视频传输模块的相关信息，对于参与者的会议效果进行检测，通过提取参与者的视线，对于参与者的专注度进行评价，包括以下步骤：

3.根据权利要求2所述的一种音视频系统集成会议系统，其特征在于：通过参与者设备的高清摄像头实时捕捉图像，基于面部检测算法识别参与者的面部区域，并在面部图像中定位眼睛区域，提取瞳孔中心，基于眼睛位置和瞳孔中心计算视线方向，其具体的步骤为：

4.根据权利要求3所述的一种音视频系统集成会议系统，其特征在于：在会议界面上确定主讲人的画面区域，建立二维坐标系统，将参与者的视线方向映射到主讲人画面上的相应位置，包括以下步骤：

5.根据权利要求4所述的一种音视频系统集成会议系统，其特征在于：基于注视时长与会议进行时间，对于相关参与人的专注度进行判定与等级划分，同时收集所有参与人的专注度，计算专注度占比并传输至主讲人界面处，对于会议效果进行评分，其具体的步骤为：

6.根据权利要求5所述的一种音视频系统集成会议系统，其特征在于：会议效果检测模块中还设置有提醒系统，在会议过程中收集会议内容，同时生成简单判断题，发送至参与度低的参与者界面上，进行互动提醒，其具体的步骤为：

7.根据权利要求1所述的一种音视频系统集成会议系统，其特征在于：所述综合总结模块，通过收集主讲人的会议内容，结合音频传输模块与视频传输模块的信息，对于会议内容进行重点总结与归纳，并在会议结束后传输总结内容进入参与者的账号中，具体的步骤为：

8.根据权利要求7所述的一种音视频系统集成会议系统，其特征在于：所述通过音频传输模块收集会议中的主讲人的音频数据，对于音频中的音调进行特征提取，基于音调的变化分析情感的强度，使用自然语言处理模型提取关键词，并与音调变化的时间点进行关联，结合从音调和文本中提取的信息，使用自然语言生成模型生成会议重点总结文本，其具体的步骤为：

9.根据权利要求1所述的一种音视频系统集成会议系统，其特征在于：所述信息认证模块，基于参与人员的个人信息注册登录账号，包括手机号、邮箱，通过管理员账号对于特殊账号发放权限，包括主讲人、特邀嘉宾，并设置权限授予功能，包括发言权限、屏幕共享权限；

技术总结
本发明公开了一种音视频系统集成会议系统，属于远程会议技术领域，包括信息认证模块、音频传输模块、视频传输模块、会议效果检测模块、综合总结模块，所述信息认证模块，基于参与人员的个人信息注册登录账号，并设置权限授予功能，所述音频传输模块，包括音频采集设备，负责在会议中进行音频信号的捕捉、传输和处理，确保与会人员能够清晰地听到彼此的声音，所述视频传输模块，包括高清摄像头，负责视频信号的捕捉、传输和显示。本发明一种音视频系统集成会议系统，能够实现音视频传输、专注度检测、会议内容总结，有效提高了会议的互动性和效果，有助于提高音视频会议的效果，提高与会人员在会议过程中的参与度。

技术研发人员：吴飞兰,黎生伟
受保护的技术使用者：广州开誉悦听电子科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-25194.html