如何保留PDF里的表格、跨页拼接?
最近有没有好用的解析pdf的开源项目?能够解析保留pdf里表格,并且能够跨页拼接。或者强力的ocr项目,能够识别表格?
当然!图灵君为大家收集了以下三种方法:
1、用于从结构化PDF文档中抽取信息的PDF解析包(Python)
《Py PDF Parser - a tool to help extracting information from structured PDFs'》by Jake Stockwin
GitHub:
https://github.com/jstockwin/py-pdf-parser
2、用unet实现对文档表格的自动检测,表格重建
GitHub:
https://github.com/chineseocr/table-ocr
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
