用python(PyPDF3)写一个提取pdf文字并保存的程序
可以使用 PyPDF3 库来读取 PDF 文件中的文本,并将其保存到文件中。下面是示例代码:
打开 PDF 文件
import PyPDF3
with open('example.pdf', 'rb') as pdf_file:# 创建 PDF 阅读器pdf_reader = PyPDF3.PdfFileReader(pdf_file)# 循环读取每一页for page_num in range(pdf_reader.numPages):# 获取当前页对象page = pdf_reader.getPage(page_num)# 获取当前页文本page_text = page.extractText()# 将文本保存到文件中with open(f'page_{page_num+1}.txt', 'w', encoding='utf-8') as text_file:text_file.write(page_text)
此代码将读取 PDF 文件中的每一页,并将每一页的文本保存到以页面编号命名的文本文件中。
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!
