第2节:跨页表格怎么自动对其合并?实现结构化输出的关键技术实战
RAG与Agent性能调优2.跨页表格怎么自动对其合并实现结构化输出的关键技术实战Gitee地址https://gitee.com/agiforgagaplus/OptiRAGAgent文章详情目录RAG与Agent性能调优上一节第1节如何统一多源文档格式下一节待更新跨页表格自动对齐的核心挑战表头重复每一页可能都包含相同的表头行列错位页面分割导致行或列不完整格式不一致不同页中的表格样式排版存在差异OCR识别误差尤其在扫描件中文字识别错误影响结构恢复关键技术方案表格结构识别TSR列Column行Row列标题Header行标题Row Header合并单元格Merged Cells参考代码https://github.com/opendatalab/mineru跨页表格合并策略a. 表头一致性检测使用文本匹配或语义向量判断是否为同一张表的重复表头。b. 表格位置分析Bounding Box判断相邻页中的表格是否在文档布局中连续。c. 自动拼接与去重对于相同表头的多个分页表格按行拼接并去除重复的表头行。结构化输出JSON/Markdown将合并后的表格转换为结构化格式便于下游模型理解完整流程步骤1布局预测Layout Predict步骤2文档格式检测MFD Predict步骤3文档格式识别MFR Predict步骤4OCR处理自动检测到使用CPU时切换为ch_lite语言模型步骤5表格预测Table Predict总结PDF 中的图片处理是补充 RAG 信息的关键内容文档识别类工具 巧妙的借助了布局 OCR 方式识别提高了准确率和 RAG 溯源的能力