读取PDF工具安装教程
我这边使用的是 xpdf工具,是使用最好的一个读取工具,读取的中文不会有乱码出现。
xpdf安装配置
下载:
根据系统选择下载 https://www.xpdfreader.com/download.html
下载xpdf和中文字体,分别解压缩。
文件名: xpdf-tools-win-4.03.zip
中文支持库名:xpdf-chinese-simplified.tar.gz
windows下安装
建立 xpdf 根目录 d:\tool\xpdf
(1)并将xpdf-tools-win-4.03\bin64目录下所有文件复制到 d:\tool\xpdf 下。
(2)将xpdf-chinese-simplified直接解压出的 整个文件夹复制到 d:\tool\xpdf 下。
(3) 复制 xpdf-tools-win-4.03\doc 路径下的 sample-xpdfrc 文件到 d:\tool\xpdf 下,并改名为 xpdfrc。
(4)修改文件 xpdfrc 第73行,将 textEncoding UTF-8 注释打开,指定编码为UTF-8,
(5)并在下面增加 textPageBreaks no 参数,意思是在pdf文档的两页间不加入分行符。
(6)在此文件最后增加以下内容,声明中文字体文件
#----- begin Chinese Simplified support package (2011-sep-02)
cidToUnicode Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN D:/tool/xpdf/xpdf-chinese-simplified/ISO-2022-CN.unicodeMap
unicodeMap EUC-CN D:/tool/xpdf/xpdf-chinese-simplified/EUC-CN.unicodeMap
unicodeMap GBK D:/tool/xpdf/xpdf-chinese-simplified/GBK.unicodeMap
cMapDir Adobe-GB1 D:/tool/xpdf/xpdf-chinese-simplified/CMap
toUnicodeDir D:/tool/xpdf/xpdf-chinese-simplified/CMap
#displayCIDFontTT Adobe-GB1 D:/xpdf/xpdf-chinese-simplified/CMap/gkai00mp.ttf
#fontFileCC Adobe-GB1 /usr/…/gkai00mp.ttf
#----- end Chinese Simplified support package
windows下使用方法
windows使用命令:
D:\tool\xpdf\pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng
说明:进入D:\tool\xpdf 文件夹中,运行 pdftopng.exe -f 1 -l 1 D:\test.pdf D:\testpng。-f 1 是指从第一页开始。 -l 1 是指第一页结束,最后一个是生成的图片名前缀叫testpng 最终会以testpng-000001.png的形式生成。
如果要导出文本用 pdftotext.exe命令。
php调用方法
<?
$filename="D:/11/02261390000606560259.pdf ";//文件名称及路径
$content = shell_exec ( 'D:/tool/xpdf/pdftotext '.$filename .' -');
echo $content;
?>