• linkedu视频
  • 平面设计
  • 电脑入门
  • 操作系统
  • 办公应用
  • 电脑硬件
  • 动画设计
  • 3D设计
  • 网页设计
  • CAD设计
  • 影音处理
  • 数据库
  • 程序设计
  • 认证考试
  • 信息管理
  • 信息安全
菜单
linkedu.com
  • 网页制作
  • 数据库
  • 程序设计
  • 操作系统
  • CMS教程
  • 游戏攻略
  • 脚本语言
  • 平面设计
  • 软件教程
  • 网络安全
  • 电脑知识
  • 服务器
  • 视频教程
  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号
您的位置:首页 > 程序设计 >C#教程 > c#实现将pdf转文本的示例分享

c#实现将pdf转文本的示例分享

作者: 字体:[增加 减小] 来源:互联网 时间:2017-05-28

通过本文主要向大家介绍了c#示例,c#代码示例,c#程序示例,rnn在文本的示例,文本图标示例等相关知识,希望对您有所帮助,也希望大家支持linkedu.com www.linkedu.com

如何解析PDF文件

在.NET中从PDF文件里提取文本的几种主要方法有:

1、Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;

2、iTextSharp;

3、PDFBox。

不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。

Adobe PDF IFilter

为了使用 IFilter 接口来解析 PDF 文件,你需要:

Windows 2000 或者后续版本

Adobe Acrobat 或 Reader 7.0.5+ (或单独的 Adobe PDF IFilter [adobe.com])

IFilter COM 封装类 [dotlucene.net]

样例代码:

缺点:

使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。

需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案,会很痛苦。

iTextSharp
iTextSharp(http://sourceforge.net/projects/itextsharp/) 是一个 Java 的PDF 操作库iText(http://itextpdf.com/) 的.NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。

例程:

信用证: 成员号 10364982

缺点:

需要许可证(如果你不喜欢 AGPL许可证 的话)

PDFBox

PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。

幸运的是,PDFBox有一个使用IKVM.NET开发的.NET版本 (只需访问PDFBox下载页)。

在.NET中使用PDFBox需要引用:

IKVM.OpenJDK.Core.dll

IKVM.OpenJDK.SwingAWT.dll

pdfbox-1.8.4.dll

并将下列文件复制到bin文件夹下:

commons-logging.dll

fontbox-1.8.4.dll

IKVM.OpenJDK.Util.dll

IKVM.Runtime.dll

使用PDFBox解析PDF十分简单:

编译后的大小加起来差不多有18MB:

IKVM.OpenJDK.Core.dll (4 MB)

IKVM.OpenJDK.SwingAWT.dll (6 MB)

pdfbox-1.8.4.dll (4 MB)

commons-logging.dll (82 kB)

fontbox-1.8.4.dll (180 kB)

IKVM.OpenJDK.Util.dll (2 MB)

IKVM.Runtime.dll (1 MB)

速度还可以:解析U.S. Copyright Act PDF (5.1 MB)文件用了13秒。

感谢bobrien100提供的改进建议。

缺点:

IKVM.NET依赖 (18 MB)

速度(尤其是IKVM.NET的启动时间)

</div>
分享到:QQ空间新浪微博腾讯微博微信百度贴吧QQ好友复制网址打印

您可能想查找下面的文章:

  • c#中合并excel表格的方法示例
  • C#裁剪,缩放,清晰度,水印处理操作示例
  • C#获取HTML文本的第一张图片与截取内容摘要示例代码
  • C#实现创建桌面快捷方式与添加网页到收藏夹的示例
  • C#实现的微信网页授权操作逻辑封装示例
  • C#代码实现短信验证码接口示例
  • C#信号量用法简单示例
  • C#实现冒泡排序算法的代码示例
  • C#微信公众号与订阅号接口开发示例代码
  • C#中使用基数排序算法对字符串进行排序的示例

相关文章

  • 2017-05-28C#实现组合排列的方法
  • 2017-05-28详解C#正则表达式Regex常用匹配
  • 2017-05-28C#实现最简单的文本加密方法
  • 2017-05-28winform中写app.config文件时调试情况下没有改变的原因
  • 2017-05-28深入多线程之:内存栅栏与volatile关键字的使用分析
  • 2017-05-28C#基于正则去掉注释的方法示例
  • 2017-05-28WinForm实现关闭按钮不可用或隐藏的方法
  • 2017-05-28C#实现百分比转小数的方法
  • 2017-05-28C# RSA分段加解密实现方法详解
  • 2017-05-28.NET中的静态与非静态的区别分析

文章分类

  • JavaScript
  • ASP.NET
  • PHP
  • 正则表达式
  • AJAX
  • JSP
  • ASP
  • Flex
  • XML
  • 编程技巧
  • Android
  • swift
  • C#教程
  • vb
  • vb.net
  • C语言
  • Java
  • Delphi
  • 易语言
  • vc/mfc
  • 嵌入式开发
  • 游戏开发
  • ios
  • 编程问答
  • 汇编语言
  • 微信小程序
  • 数据结构
  • OpenGL
  • 架构设计
  • qt
  • 微信公众号

最近更新的内容

    • C#实现过滤sql特殊字符的方法集合
    • C#导入导出Excel数据的两种方法
    • 在C#中global关键字的作用及其用法
    • C#网络爬虫代码分享 C#简单的爬取工具
    • C# 定时器定时更新的简单实例
    • c#检测usb设备拨插类库USBClassLibrary分享
    • C#中使用ADOMD.NET查询多维数据集的实现方法
    • 关于C# Math 处理奇进偶不进的实现代码
    • unity实现摄像头跟随
    • C#获得MAC地址(网卡序列号)的实现代码

关于我们 - 联系我们 - 免责声明 - 网站地图

©2020-2025 All Rights Reserved. linkedu.com 版权所有