1
我在他们的github上关注他们的“代码示例”指南。 https://github.com/modesty/pdf2json#code-examplepdf2json给我一个空白的输出txt文件?
在示例中,“解析PDF然后编写一个.txt文件(它只包含PDF的文本内容)”,我复制并将确切的实现粘贴到我的本地JavaScript文件中,并将其称为输出文本文件是完全空白的。
'use strict';
let fs = require('fs');
let PDFParser = require("pdf2json");
let pdfParser = new PDFParser();
pdfParser.on("pdfParser_dataError", errData => console.error(errData.parserError));
pdfParser.on("pdfParser_dataReady", pdfData => {
fs.writeFile("./node_modules/pdf2json/test/F1040EZ.content.txt", pdfParser.getRawTextContent());
});
pdfParser.loadPDF("./node_modules/pdf2json/test/pdf/fd/form/F1040EZ.pdf");
这是我做错了什么吗?或者这不适用于他们?还有没有其他的二进制文件安装的任何替代文本转换器的PDF到文本转换器?
这是一个广阔的话题。 [pdf](http://stackoverflow.com/tags/pdf/info)标签指出“如果不采用光学字符识别(OCR),从PDF中提取文本可能是不可能的。字母可以被编码为字体字形,行艺术,矢量图形或光栅图像“。任何人都需要更多的背景和样本PDF,以便进一步提供建议。 – dwarring