一种基于抽象语法树的试卷题目拆分方法及装置与流程

专利2025-04-18  20

本发明涉及教育数字化,具体是指一种基于抽象语法树的试卷题目拆分方法及装置。
背景技术
::1、随着教育信息化的深入发展,将纸质试卷、word文档、pdf文件等形式的考试内容快速、准确地转换为结构化数据,成为教育数字化进程中的重要环节。传统的方法如人工录入、扫描后ocr识别等,存在工作量大、效率低、易出错等问题,难以满足大规模、高效率的试卷处理需求。因此,开发一种自动化、智能化的试卷题目拆分方法显得尤为重要。技术实现思路1、本发明针对现有技术中试卷内容数字化处理存在的效率低、易出错等问题,提出了一种基于抽象语法树(ast)的试卷题目拆分方法及装置。该方法通过自动化解析试卷内容,将其转换为结构化的数据格式,有效提高了试卷处理的效率和准确性。2、具体的,本发明提供的技术方案为:一种基于抽象语法树的试卷题目拆分方法及装置,包括以下步骤:3、s1、读取、解析原始素材,并转换为html片段;4、s1.1、word文档以段落为单位转换为p标签;5、s1.2、加粗转换为b标签,斜体转换为i标签,下划线转为u标签,表格转为table标签;字体、字号要素存入span标签的style属性;6、s1.3、“编号”按照word格式规则,转化在对应的文字序号;7、s1.4、内嵌图片转为并保持为图片文件,在hmtl片段中用img标签加以引用;8、s1.5、内嵌ole对象,提取ole对象的图片并保存为图片文件,并在html片段中用img标签加以引用;9、s1.6、内嵌公式转化在latex格式,并作为span标签的data-latex自定义属性值;10、s1.7、pdf文档先转化在word文档,按照word文档规则转换;11、s1.8、纸质资料使用ocr技术转换为文字版,并以行为单位组织内容,将行转化在p标签;12、s2、逐个解析上述转换中生成的p标签,并提取纯文本内容并剔除前后空格后,转换为方法所需token;13、s2.1、前n行且内容包含“期末测验”,“期中测验”,“质量检测”,“月考”关键信息的内容,标记为titletoken;14、s2.2、能够匹配正则表达式“^[一二三四五六七八九十]+、”,标记为sectiontoken;15、s2.3、能够匹配正则表达式“^(?p<no>\d+)[{dot_space}]+.*”,标记为questiontoken;16、s2.4、能够匹配正则表达式“([a-z][..])+”,标记为optiontoken;17、s2.5、能够匹配正则表达式“([【]?答案[:|\s|】])(.*)”,标记为answertoken;18、s2.6、能够匹配正则表达式“^([【]?解析|详解[:|\s|】])(.*)”,标记为analysistoken;19、s2.7、能够匹配正则表达式20、“^(?p<start>[{left_parenthesis}]?)(?p<no>\d+)(?p<end>[{right_parenthesis}]+)(?p<conten t>.*)”,标记为subquestion token;21、s2.8、前n行且内容包含“阅卷”,“得分”,“绝密★启用前”,“考号:”,“考试范围”,“考试时间”,“注意事项”信息,标注为,ignore token;22、s2.9、以上均不匹配,则标记为普通文本texttoken;23、s3、将上述步骤生成的tokens,采用逐个转化在抽象语法树;24、s3.1、读取到sectiontoken节点,则执行分节转换算法:25、s3.1.1、读取下一个节点,直到下一个节点不是texttoken;26、s3.1.2、将读取到的所有text节点,按顺序存入secitontoken.children中;27、s3.1.3、读取下一个节点,直到下一个节点不是questiontoken;28、s3.1.4、将读取到的questiontoken节点,按顺序存入sectiontoken.cildren中;29、s3.1.5、将sectiontoken子节点children中的text节点,插入第一个quesitontoken.chidlren的位置0处;此步骤称为文本下推,可将附加材料转入题目题干;30、s3.2、读取到questiontoken标记,则执行题目转换为算法:31、s3.2.1、读取下一个节点,直到下一个节点不是texttoken;32、s3.2.2、将读取到的所有text节点,按顺序存入question.chidlren;33、s3.2.3、读取下一个节点,直到下一个节点不是optiontoken;34、s3.2.4、将读取到所有的optiontoken节点中,一行多个选项分别拆解出来,按顺序存入question.children;35、s3.2.5、下一个节点是answertoken或analysistoken,存入quesiton.children;36、s3.2.6、下一个节点是subquestiontoken,则检查当前quesiton.children中小题标记符号,符合相同时按照按照questiontoken在类似算法解析小题,并存入quesion.chilren;小题符号不同,则转换为texttoken后,存入当前token.children中;37、s3.3、读取第ignoretoken标记,则跳过该token;38、s4、采用前序遍历遍历上述语法树,生成结构化题目信息;39、s4.1、sectiontoken节点,直接遍历其children节点;40、s4.2、questiontoken节点处理方法:41、s4.2.1、筛选children中所有texttoken,组织为题干;42、s4.2.2、筛选children中所有optiontoken,组织为选项;43、s4.2.3、筛选children中所有subquestiontoken,作为当前题目的小题;按照quesitontoken处理方法,处理小题的题干、选项、答案;44、s4.2.4、筛选children中answertoken作为题目参考答案;45、s4.2.5、筛选children中analysistoken作为题目解析;46、s4.2.6、将生成的结构化数据,存入结果列表。47、本发明与现有技术相比的优点在于:1)高效性:通过自动化解析和转换,大大减少了人工干预,提高了试卷内容处理的效率;48、2)准确性:采用正则表达式等精确匹配技术,确保了对试卷内容的准确分类和标记,减少了错误率49、3)灵活性:支持多种格式的原始素材输入(如word文档、pdf文档、纸质资料等),具有较强的适应性和灵活性;50、4)结构清晰:通过构建抽象语法树,实现了对试卷内容的层次化、结构化表示,便于后续的处理和分析;51、5)易于维护:本发明的方法和装置结构清晰、逻辑简单,易于维护和扩展。当前第1页12当前第1页12
技术特征:

1.一种基于抽象语法树的试卷题目拆分方法及装置,其特征在于包括以下步骤:


技术总结
本发明公开了一种基于抽象语法树的试卷题目拆分方法及装置,包括以下步骤:S1、读取、解析原始素材,并转换为HTML片段;S2、逐个解析上述转换中生成的p标签,并提取纯文本内容并剔除前后空格后,转换为方法所需Token;S3、将上述步骤生成的Tokens,采用逐个转化在抽象语法树;S4、采用前序遍历遍历上述语法树,生成结构化题目信息。本发明与现有技术相比的优点在于:高效性、准确性、灵活性、结构清晰、易于维护。

技术研发人员:苑旭,张珈鸣,赵铭瑾,陆志向
受保护的技术使用者:河北习知软件科技有限公司
技术研发日:
技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-23579.html