2016-06-10 77 views
1

我在他们的github上关注他们的“代码示例”指南。 https://github.com/modesty/pdf2json#code-examplepdf2json给我一个空白的输出txt文件?

在示例中,“解析PDF然后编写一个.txt文件(它只包含PDF的文本内容)”,我复制并将确切的实现粘贴到我的本地JavaScript文件中,并将其称为输出文本文件是完全空白的。

'use strict'; 

let fs = require('fs'); 
let PDFParser = require("pdf2json"); 

let pdfParser = new PDFParser(); 

pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError)); 
pdfParser.on("pdfParser_dataReady", pdfData => { 
    fs.writeFile("./node_modules/pdf2json/test/F1040EZ.content.txt", pdfParser.getRawTextContent()); 
}); 

pdfParser.loadPDF("./node_modules/pdf2json/test/pdf/fd/form/F1040EZ.pdf"); 

这是我做错了什么吗?或者这不适用于他们?还有没有其他的二进制文件安装的任何替代文本转换器的PDF到文本转换器?

+0

这是一个广阔的话题。 [pdf](http://stackoverflow.com/tags/pdf/info)标签指出“如果不采用光学字符识别(OCR),从PDF中提取文本可能是不可能的。字母可以被编码为字体字形,行艺术,矢量图形或光栅图像“。任何人都需要更多的背景和样本PDF,以便进一步提供建议。 – dwarring

回答

1

该FrontPage文档有点不对!为了使这项工作简单地设置PDFParser参数空,1

这一个工程:

var fs = require("fs"); 

// https://github.com/modesty/pdf2json 
var PDFParser = require("./node_modules/pdf2json/PDFParser"); 
var pdfParser = new PDFParser(this,1); 

pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError)); 
pdfParser.on("pdfParser_dataReady", pdfData => { 
    console.log(pdfParser) 
    fs.writeFile("./content.txt", pdfParser.getRawTextContent()); 
}); 

HTH -XDVarpunen

Link在pdf2json发行:https://github.com/modesty/pdf2json/issues/76