一种基于最小编辑距离的PDF文件对比的方法与流程

专利2026-06-16  1

本发明属于计算机,尤其涉及一种基于最小编辑距离的pdf文件对比的方法。
背景技术
::1、随着印刷技术的进步,印刷校对工作对人工的依赖程度在不断的缩小,但是仍需要大量的人力物力,在排版印刷之前,排版人员仍然需要对印刷品进行多次的校对,将本次修改的内容与上次修改的内容进行对比时,不同之处不容易被察觉,整个校对过程效率不是很高,影响印刷进度和质量。目前,发展出了一种便携式文件格式文件(portabledocument format,简称pdf)对比工具来进行pdf校对,降低印刷校对的人为失误,提高校对效率。现有技术中的pdf对比工具主要有adobe acrobat、diffpdf、beyond compare等。这些工具可以帮助用户比对文档中的差异,但存在准确性不高及对比效率低的问题。问题的存在主要是因为现有工具的算法和技术不够先进,导致在处理复杂文档时准确性不高。技术实现思路1、为解决上述技术问题,本发明提出了一种基于最小编辑距离的pdf文件对比的方法,提高了文档比对的准确性和速度。2、为实现上述目的,本发明提供了一种基于最小编辑距离的pdf文件对比的方法,包括:3、对第一pdf文件的页面和第二pdf文件的页面进行渲染,获得渲染后的第一位图和第二位图,对所述第一位图和所述第二位图分别计算出位图的md5值,获得第一pdf文件页面的特征值序列和第二pdf文件页面的特征值序列;4、根据最小编辑算法对比所述第一pdf文件页面的特征值序列和所述第二pdf文件页面的特征值序列的差异,获得差异序列;5、对所述差异序列中被标记成修改页面,分别进行文本元素类型、图像元素类型和路径元素类型差异比较,完成所述第一pdf文件和所述第二pdf文件对比。6、根据本发明提供的基于最小编辑距离的pdf文件对比的方法,对第一pdf文件的页面和第二pdf文件的页面进行渲染包括:7、将所述第一pdf文件的页面和所述第二pdf文件的页面渲染成400*400的位图。8、根据本发明提供的基于最小编辑距离的pdf文件对比的方法,对所述第一位图和所述第二位图分别计算出位图的md5值还包括引入哈希算法,将位图的内容转换为特征值。9、根据本发明提供的基于最小编辑距离的pdf文件对比的方法,获得差异序列包括:10、对比所述第一pdf文件页面的特征值序列和所述第二pdf文件页面的特征值序列,获取相同的部分,将相同的部分标记为相同的索引;11、对比所述第一pdf文件页面的特征值序列和所述第二pdf文件页面的特征值序列,将所述第一pdf文件页面的特征值序列中有但所述第二pdf文件页面的特征值序列中没有的部分,标记为页面删除的索引;12、对比所述第一pdf文件页面的特征值序列和所述第二pdf文件页面的特征值序列,将所述第二pdf文件页面的特征值序列中有但所述第一pdf文件页面的特征值序列中没有的部分,标记为页面添加的索引;13、对比所述第一pdf文件页面的特征值序列和所述第二pdf文件页面的特征值序列,所述第一pdf文件页面的特征值序列和所述第二pdf文件页面的特征值序列都存在但内容不同的部分,标记为页面更新的索引。14、根据本发明提供的基于最小编辑距离的pdf文件对比的方法,对所述差异序列中被标记成修改页面进行文本元素类型差异比较包括:15、对所述差异序列中被标记成修改页面,提取文本内容、字体字号和颜色,生成第一文本元素特征值序列和第二文本元素特征值序列;16、利用最小编辑算法对比所述第一文本元素特征值序列和所述第二文本元素特征值序列的差异,获得文本差异序列,对所述文本差异序列标记文本的添加索引、文本的删除索引、文本的修改索引和文本的相同索引。17、根据本发明提供的基于最小编辑距离的pdf文件对比的方法,对所述差异序列中被标记成修改页面进行路径元素类型差异比较包括:18、对所述差异序列中被标记成修改页面,提取路径点的数据信息,将点集合序列化成字符串并转化为md5值,生成第一路径元素的特征值序列和第二路径元素的特征值序列;19、利用最小编辑算法对比所述第一路径元素的特征值序列和所述第二路径元素的特征值序列的差异,获得路径差异序列,对所述路径差异序列标记路径的添加索引、路径的删除索引、路径的修改索引和路径的相同索引。20、根据本发明提供的基于最小编辑距离的pdf文件对比的方法,对所述差异序列中被标记成修改页面进行图像元素类型差异比较包括:21、对所述差异序列中被标记成修改页面,提前图像的位图数据的md5值、位置和宽高信息,生成第一图像元素的特征值序列和第二图像元素的特征值序列;22、利用最小编辑算法对比所述第一图像元素的特征值序列和所述第二图像元素的特征值序列的差异,获得图像差异序列,对所述图像差异序列标记图像的添加索引、图像的删除索引、图像的修改索引和图像的相同索引。23、本发明技术效果:24、(1)本发明可以提高内部设备或外部设备的计算性能和效率。利用最小编辑算法对比pdf文档的差异,可以大大减少对比过程中的计算量,提高对比速度。与传统的pdf对比工具相比,本发明可以在大幅降低计算资源的情况下,保证对比准确性和效率,从而提高内部和外部设备的性能和效率。25、(2)本发明可以提高pdf对比的准确性和精度。通过提取文本、路径和图像元素的关键信息,本发明可以准确地检测出pdf文档中的差异,避免了传统对比工具中可能存在的漏检、误检等问题。同时,本发明采用md5算法生成元素特征值序列,可以有效避免特征值冲突的问题,提高对比的精度和可靠性。26、(3)本发明可以提高pdf对比的稳定性。本发明采用了先进的技术手段,如最小编辑算法、md5算法等,可以保证对比的稳定性和可靠性。同时,本发明使用简单、直观的界面设计,使得用户可以轻松使用工具完成对比操作,从而提高了用户对工具的信任度和满意度。27、综上所述,本发明提供的pdf对比工具具有计算性能和效率提高、准确性和精度提高、稳定性提高等多重有益效果,可以为用户提供更加高效、准确、稳定的pdf对比服务,从而提高用户的使用体验和满意度。技术特征:1.一种基于最小编辑距离的pdf文件对比的方法,其特征在于,包括:2.如权利要求1所述的基于最小编辑距离的pdf文件对比的方法,其特征在于,对第一pdf文件的页面和第二pdf文件的页面进行渲染包括:3.如权利要求1所述的基于最小编辑距离的pdf文件对比的方法,其特征在于,对所述第一位图和所述第二位图分别计算出位图的md5值还包括引入哈希算法,将位图的内容转换为特征值。4.如权利要求1所述的基于最小编辑距离的pdf文件对比的方法,其特征在于,获得差异序列包括:5.如权利要求1所述的基于最小编辑距离的pdf文件对比的方法,其特征在于,对所述差异序列中被标记成修改页面进行文本元素类型差异比较包括:6.如权利要求1所述的基于最小编辑距离的pdf文件对比的方法,其特征在于,对所述差异序列中被标记成修改页面进行路径元素类型差异比较包括:7.如权利要求1所述的基于最小编辑距离的pdf文件对比的方法,其特征在于,对所述差异序列中被标记成修改页面进行图像元素类型差异比较包括:技术总结本发明公开了一种基于最小编辑距离的PDF文件对比的方法,包括:对第一PDF文件的页面和第二PDF文件的页面进行渲染,获得渲染后的第一位图和第二位图,对所述第一位图和所述第二位图分别计算出位图的MD5值,获得第一PDF文件页面的特征值序列和第二PDF文件页面的特征值序列;根据最小编辑算法对比所述第一PDF文件页面的特征值序列和所述第二PDF文件页面的特征值序列的差异,获得差异序列;对所述差异序列中被标记成修改页面,分别进行文本元素类型、图像元素类型和路径元素类型差异比较,完成所述第一PDF文件和所述第二PDF文件对比。本发明提高了文档比对的准确性和速度。技术研发人员:吴强受保护的技术使用者:赛博爱思(上海)软件科技有限公司技术研发日:技术公布日:2024/12/17
转载请注明原文地址:https://xbbs.6miu.com/read-31676.html