利用百度AI OCR图片识别，Java实现PDF中的图片转换成文字

2023-11-24 16:35:31

序言：我们在读一些PDF版书籍的时候，如果PDF中不是图片，做起读书笔记的还好；如果PDF中的是图片的话，根本无法编辑，做起笔记来，还是很痛苦的。我是遇到过了。我们搞技术的，当然得自己学着解决现在的痛点。

一. 现状

为了不重复造轮子，当然得看看现在市面上是否有已经实现过的，如果有，那自然是拿来即用。

首先，说说一些在线版的PDF图片转文字，对文件大小有限制为2M(似乎有很多的文件处理都是限制在这个数)，超过了便要收费了。

第二，那就是WPS的PDF图片转文字了。别说大小限制了，直接是收费。
1240

二. 方案实现

2.1 百度AI平台获取AppID, API Key, Secret Key

该平台限制调用次数，作为个人开发者来说，基本上是够用了。
1240

Java SDK文档使用说明: https://ai.baidu.com/docs#/OCR-Java-SDK/top

不清楚的，可以去看文档。

2.2 代码实现

逻辑思路：读取PDF文件，然后读取PDF中包含的图片，将图片传给百度AI平台去进行识别，返回结果解析。

第一步：新建一个Demo的Maven工程

省略....（相信大家都会哈）??

第二步：引入POM


4.0.0com.exampledemo0.0.1-SNAPSHOTdemoDemo project for pdf图片转换文字喜欢的微信关注公众号：Java技术干货1.8com.baidu.aipjava-sdk4.8.0org.apache.pdfboxpdfbox-app2.0.16

第三步：新建一个带有main方法的类

package com.example.demo;import com.baidu.aip.ocr.AipOcr;
import org.apache.pdfbox.cos.COSName;
import org.apache.pdfbox.pdmodel.*;
import org.apache.pdfbox.pdmodel.graphics.image.PDImageXObject;
import org.apache.pdfbox.text.PDFTextStripper;
import org.json.JSONObject;import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.*;
import java.nio.ByteBuffer;
import java.text.SimpleDateFormat;
import java.util.*;
import java.util.concurrent.atomic.AtomicInteger;public class DemoApplication {//设置APPID/AK/SKpublic static final String APP_ID = "你的APP_ID";public static final String API_KEY = "你的API_KEY";public static final String SECRET_KEY = "你的SECRET_KEY ";public static final String DATE_FORMAT = "yyyy-MM-dd HH:mm:ss";/*** 解析pdf文档信息** @param pdfPath pdf文档路径* @throws Exception*/public static void pdfParse(String pdfPath) throws Exception {InputStream input = null;File pdfFile = new File(pdfPath);PDDocument document = null;try {input = new FileInputStream(pdfFile);//加载 pdf 文档document = PDDocument.load(input);/** 文档属性信息 **/PDDocumentInformation info = document.getDocumentInformation();System.out.println("标题:" + info.getTitle());System.out.println("主题:" + info.getSubject());System.out.println("作者:" + info.getAuthor());System.out.println("关键字:" + info.getKeywords());System.out.println("应用程序:" + info.getCreator());System.out.println("pdf 制作程序:" + info.getProducer());System.out.println("作者:" + info.getTrapped());System.out.println("创建时间:" + dateFormat(info.getCreationDate()));System.out.println("修改时间:" + dateFormat(info.getModificationDate()));//获取内容信息PDFTextStripper pts = new PDFTextStripper();String content = pts.getText(document);System.out.println("内容:" + content);/** 文档页面信息 **/PDDocumentCatalog cata = document.getDocumentCatalog();PDPageTree pages = cata.getPages();System.out.println(pages.getCount());int count = 1;// 初始化一个AipOcrAipOcr client = new AipOcr(APP_ID, API_KEY, SECRET_KEY);// 可选：设置网络连接参数client.setConnectionTimeoutInMillis(2000);client.setSocketTimeoutInMillis(60000);for (int i = 0; i < pages.getCount(); i++) {PDPage page = (PDPage) pages.get(i);if (null != page) {PDResources res = page.getResources();Iterable xobjects = res.getXObjectNames();if(xobjects != null){Iterator imageIter = xobjects.iterator();while(imageIter.hasNext()){COSName key = (COSName) imageIter.next();if (res.isImageXObject(key)) {try {PDImageXObject image = (PDImageXObject) res.getXObject(key);BufferedImage bimage = image.getImage();// 将BufferImage转换成字节数组ByteArrayOutputStream out =new ByteArrayOutputStream();ImageIO.write(bimage,"png",out);//png 为要保存的图片格式byte[] barray = out.toByteArray();out.close();// 发送图片识别请求 JSONObject json = client.basicGeneral(barray, new HashMap());System.out.println(json.toString(2));count++;System.out.println(count);} catch (Exception e) {}}}}}}} catch (Exception e) {throw e;} finally {if (null != input)input.close();if (null != document)document.close();}}/*** 获取格式化后的时间信息** @param dar 时间信息* @return* @throws Exception*/public static String dateFormat(Calendar calendar) throws Exception {if (null == calendar)return null;String date = null;try {String pattern = DATE_FORMAT;SimpleDateFormat format = new SimpleDateFormat(pattern);date = format.format(calendar.getTime());} catch (Exception e) {throw e;}return date == null ? "" : date;}public static void main(String[] args) throws Exception {// 读取pdf文件String path = "C:\\Users\\fl\\Desktop\\a.pdf";pdfParse(path);}}

第四步：识别结果对比

样例1：封面识别

识别前：

识别后：

样例2：正文识别

识别前：

识别后：
1240

三. 总结

花一两个小时，把这一块儿的功能熟悉了一下，看了一下结果还是很满意的，虽然缺少了一些格式。但是能够把文字识别出来，就避免了手动再去敲一次。提高了读书做笔记的效率。

喜欢的朋友们可以点个关注或喜欢?
1240

转载于:https://www.cnblogs.com/werewolfBoy/p/11226025.html

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场，不承担相关法律责任。如若转载，请注明出处。 如若内容造成侵权/违法违规/事实不符，请点击【内容举报】进行投诉反馈！

标签：技术

上一篇 > 职场达人推荐，实用的七个运营工具
下一篇 > 邮件被退回怎么办？

Duilib中list控件支持ctrl和shif多行选中的实现

[ICML2015]Batch Normalization:Accelerating Deep Network Training by Reducing Internal Covariate Shif

win10系统微软输入法于eclipse ctrl+shif+f冲突间接处理办法

Codeforces Round #259 (Div. 2) B. Little Pony and Sort by Shif

读LDD3，内存映射与DMA--PAGE_SHIF…

VMware虚拟机安装XP【要先分区，再设置BOOT 启动CD，shif+上移】

更换iBus五笔的左与右Shif

sublime ctrl+shif+f 没用解决办法

idea 对 ctrl + z 的撤销是 ctrl + shif + z

计算机最早的设计师应用于,计算机应用基础选择题doc.doc

win10自带截图神器：Win+Shift+S

Python基础之文件目录操作

python简述目录_Python基础之文件目录操作(示例代码)

tp5 如何做数据采集

任务2-7(服务器字体+阿里巴巴矢量库)

html标签（1)：h1~h6,p,br,pre,hr

TI 电量计介绍与芯片选型指南

几款TI电源芯片简介

TI DSP芯片C2000系列读取FLASH数据

德州仪器(Ti)平台嵌入式开发基础

TI三相电机智能栅极驱动芯片特点分类

省选模拟（12.08） T3 圈圈圈圈圈圈圈圈

Hadoop生态圈技术栈（上）

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之6.Impala交互式查询

小猿圈之Linux下Mysql 操作命令

大数据Hadoop生态圈常用面试题

大数据开发基础入门与项目实战（三）Hadoop核心及生态圈技术栈之4.Hive DDL、DQL和数据操作

备战Noip2018模拟赛11（B组）T3 Monogatari 物语

【智能优化算法-圆圈搜索算法】基于圆圈搜索算法Circle Search Algorithm求解单目标优化问题附matlab代码

NYOJ 78 圈水池

递归问题跑道汽车绕圈问题 Python实现

Hadoop生态圈（三）：MapReduce