一种基于抽象语法树的试卷题目拆分方法及装置与流程

专利2025-04-18 39

本发明涉及教育数字化，具体是指一种基于抽象语法树的试卷题目拆分方法及装置。
背景技术：
：：1、随着教育信息化的深入发展，将纸质试卷、word文档、pdf文件等形式的考试内容快速、准确地转换为结构化数据，成为教育数字化进程中的重要环节。传统的方法如人工录入、扫描后ocr识别等，存在工作量大、效率低、易出错等问题，难以满足大规模、高效率的试卷处理需求。因此，开发一种自动化、智能化的试卷题目拆分方法显得尤为重要。技术实现思路1、本发明针对现有技术中试卷内容数字化处理存在的效率低、易出错等问题，提出了一种基于抽象语法树(ast)的试卷题目拆分方法及装置。该方法通过自动化解析试卷内容，将其转换为结构化的数据格式，有效提高了试卷处理的效率和准确性。2、具体的，本发明提供的技术方案为：一种基于抽象语法树的试卷题目拆分方法及装置，包括以下步骤：3、s1、读取、解析原始素材，并转换为html片段；4、s1.1、word文档以段落为单位转换为p标签；5、s1.2、加粗转换为b标签，斜体转换为i标签，下划线转为u标签，表格转为table标签；字体、字号要素存入span标签的style属性；6、s1.3、“编号”按照word格式规则，转化在对应的文字序号；7、s1.4、内嵌图片转为并保持为图片文件，在hmtl片段中用img标签加以引用；8、s1.5、内嵌ole对象，提取ole对象的图片并保存为图片文件，并在html片段中用img标签加以引用；9、s1.6、内嵌公式转化在latex格式，并作为span标签的data-latex自定义属性值；10、s1.7、pdf文档先转化在word文档，按照word文档规则转换；11、s1.8、纸质资料使用ocr技术转换为文字版，并以行为单位组织内容，将行转化在p标签；12、s2、逐个解析上述转换中生成的p标签，并提取纯文本内容并剔除前后空格后，转换为方法所需token；13、s2.1、前n行且内容包含“期末测验”，“期中测验”，“质量检测”，“月考”关键信息的内容，标记为titletoken；14、s2.2、能够匹配正则表达式“^[一二三四五六七八九十]+、”，标记为sectiontoken；15、s2.3、能够匹配正则表达式“^(？p<no>\d+)[{dot_space}]+.*”，标记为questiontoken；16、s2.4、能够匹配正则表达式“([a-z][..])+”，标记为optiontoken；17、s2.5、能够匹配正则表达式“([【]？答案[:|\s|】])(.*)”，标记为answertoken；18、s2.6、能够匹配正则表达式“^([【]？解析|详解[:|\s|】])(.*)”，标记为analysistoken；19、s2.7、能够匹配正则表达式20、“^(？p<start>[{left_parenthesis}]？)(？p<no>\d+)(？p<end>[{right_parenthesis}]+)(？p<conten t>.*)”，标记为subquestion token；21、s2.8、前n行且内容包含“阅卷”，“得分”，“绝密★启用前”，“考号:”，“考试范围”，“考试时间”，“注意事项”信息，标注为，ignore token；22、s2.9、以上均不匹配，则标记为普通文本texttoken；23、s3、将上述步骤生成的tokens，采用逐个转化在抽象语法树；24、s3.1、读取到sectiontoken节点，则执行分节转换算法：25、s3.1.1、读取下一个节点，直到下一个节点不是texttoken；26、s3.1.2、将读取到的所有text节点，按顺序存入secitontoken.children中；27、s3.1.3、读取下一个节点，直到下一个节点不是questiontoken；28、s3.1.4、将读取到的questiontoken节点，按顺序存入sectiontoken.cildren中；29、s3.1.5、将sectiontoken子节点children中的text节点，插入第一个quesitontoken.chidlren的位置0处；此步骤称为文本下推，可将附加材料转入题目题干；30、s3.2、读取到questiontoken标记，则执行题目转换为算法：31、s3.2.1、读取下一个节点，直到下一个节点不是texttoken；32、s3.2.2、将读取到的所有text节点，按顺序存入question.chidlren；33、s3.2.3、读取下一个节点，直到下一个节点不是optiontoken；34、s3.2.4、将读取到所有的optiontoken节点中，一行多个选项分别拆解出来，按顺序存入question.children；35、s3.2.5、下一个节点是answertoken或analysistoken，存入quesiton.children；36、s3.2.6、下一个节点是subquestiontoken，则检查当前quesiton.children中小题标记符号，符合相同时按照按照questiontoken在类似算法解析小题，并存入quesion.chilren；小题符号不同，则转换为texttoken后，存入当前token.children中；37、s3.3、读取第ignoretoken标记，则跳过该token；38、s4、采用前序遍历遍历上述语法树，生成结构化题目信息；39、s4.1、sectiontoken节点，直接遍历其children节点；40、s4.2、questiontoken节点处理方法：41、s4.2.1、筛选children中所有texttoken，组织为题干；42、s4.2.2、筛选children中所有optiontoken，组织为选项；43、s4.2.3、筛选children中所有subquestiontoken，作为当前题目的小题；按照quesitontoken处理方法，处理小题的题干、选项、答案；44、s4.2.4、筛选children中answertoken作为题目参考答案；45、s4.2.5、筛选children中analysistoken作为题目解析；46、s4.2.6、将生成的结构化数据，存入结果列表。47、本发明与现有技术相比的优点在于：1)高效性：通过自动化解析和转换，大大减少了人工干预，提高了试卷内容处理的效率；48、2)准确性：采用正则表达式等精确匹配技术，确保了对试卷内容的准确分类和标记，减少了错误率49、3)灵活性：支持多种格式的原始素材输入(如word文档、pdf文档、纸质资料等)，具有较强的适应性和灵活性；50、4)结构清晰：通过构建抽象语法树，实现了对试卷内容的层次化、结构化表示，便于后续的处理和分析；51、5)易于维护：本发明的方法和装置结构清晰、逻辑简单，易于维护和扩展。当前第1页12当前第1页12
技术特征：

1.一种基于抽象语法树的试卷题目拆分方法及装置，其特征在于包括以下步骤：

技术总结
本发明公开了一种基于抽象语法树的试卷题目拆分方法及装置，包括以下步骤：S1、读取、解析原始素材，并转换为HTML片段；S2、逐个解析上述转换中生成的p标签，并提取纯文本内容并剔除前后空格后，转换为方法所需Token；S3、将上述步骤生成的Tokens，采用逐个转化在抽象语法树；S4、采用前序遍历遍历上述语法树，生成结构化题目信息。本发明与现有技术相比的优点在于：高效性、准确性、灵活性、结构清晰、易于维护。

技术研发人员：苑旭,张珈鸣,赵铭瑾,陆志向
受保护的技术使用者：河北习知软件科技有限公司
技术研发日：
技术公布日：2024/12/17

转载请注明原文地址:https://xbbs.6miu.com/read-23579.html