C# .NET下读取PDF文本

在.NET下读取PDF文本用到的类库主要有两个:PDFBox和iTextSharp。

先说PDFBox,这个类库据说功能很强大,本人在这只是简单介绍一下:
1、下载PDFBox
下载地址:http://sourceforge.net/projects/pdfbox/
2、引用动态链接库
解压缩下载的PDFBox,找到其中的Bin目录,需要在项目中添加引用的dll文件有: IKVM.GNU.Classpath.dll PDFBox-0.7.3.dll FontBox-0.1.0-dev.dll IKVM.Runtime.dll 将以上4个文件引用到项目中,在文件中需要引入以下2个命名空间: using org.pdfbox.pdmodel; using org.pdfbox.util;
3、API的使用方法看代码:

using org.pdfbox.pdmodel;  
using org.pdfbox.util;  
public void pdf2txt(FileInfo file,FileInfo txtfile)  
{  PDDocument doc = PDDocument.load(file.FullName);  PDFTextStripper pdfStripper = new PDFTextStripper();  string text = pdfStripper.getText(doc);  StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));  swPdfChange.Write(text);  swPdfChange.Close();  
}  
using org.pdfbox.pdmodel;
using org.pdfbox.util;
public void pdf2txt(FileInfo file,FileInfo txtfile)
{PDDocument doc = PDDocument.load(file.FullName);PDFTextStripper pdfStripper = new PDFTextStripper();string text = pdfStripper.getText(doc);StreamWriter swPdfChange = new StreamWriter(txtfile.FullName, false, Encoding.GetEncoding("gb2312"));swPdfChange.Write(text);swPdfChange.Close();
}

iTextSharp,其实很多时候都是用于生成PDF,但是他读取PDF的能力也不差,使用如下:
1、下载iTextSharp
下载地址:http://sourceforge.net/projects/itextsharp/
2、引用动态链接库
解压缩下载的压缩包里面的itextsharp-dll-core.zip,得到itextsharp.dll,在项目中添加引用itextsharp.dll即可 在文件中需要引入以下3个命名空间: using iTextSharp; using iTextSharp.text; using iTextSharp.text.pdf;
3、API的使用方法看代码:
private string OnCreated(string filepath)
{
try
{
string pdffilename = filepath;
PdfReader pdfReader = new PdfReader(pdffilename);
int numberOfPages = pdfReader.NumberOfPages;
string text = string.Empty;

    for (int i = 1; i <= numberOfPages; ++i)  {  byte[] bufferOfPageContent = pdfReader.GetPageContent(i);  text += System.Text.Encoding.UTF8.GetString(bufferOfPageContent);  }  pdfReader.Close();  return text;  
}  
catch (Exception ex)  
{  StreamWriter wlog = File.AppendText(System.AppDomain.CurrentDomain.SetupInformation.ApplicationBase+"\\mylog.log");  wlog.WriteLine("出错文件:" + e.FullPath + "原因:" + ex.ToString());  wlog.Flush();  wlog.Close();return null;  
}  

}


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部