如何从PDF中提取纯文本golang

我想使用GO从pdf文件中提取文本。我试着用ledongthuc/pdf Go包来实现方法GetPlainText（）来获取没有格式的纯文本内容。但我没有得到明文。我有一个结果：如何从PDF中提取纯文本golang

W 
S 
D 
V 
Y R 
O 
R 
Q 
W 
D 
L 
U 
H 
P 
H 
Q 
W 
......

Go代码

package main 

import (
    "bytes" 
    "fmt" 

    "github.com/ledongthuc/pdf" 
) 

func main() { 
    content, err := readPdf("test.pdf") 
    if err != nil { 
     panic(err) 
    } 
    fmt.Println(content) 
    return 
} 

func readPdf(path string) (string, error) { 
    r, err := pdf.Open(path) 
    if err != nil { 
     return "", err 
    } 
    totalPage := r.NumPage() 

    var textBuilder bytes.Buffer 
    for pageIndex := 1; pageIndex <= totalPage; pageIndex++ { 
     p := r.Page(pageIndex) 
     if p.V.IsNull() { 
      continue 
     } 
     textBuilder.WriteString(p.GetPlainText("\n")) 
    } 
    return textBuilder.String(), nil 
}

来源

2017-06-15 LeMoussel

我已经尝试了几个PDF文件，库确实返回一个文件的纯文本不会返回另一个文件（只是垃圾字符和几个实际文本）。与开发人员联系更好。 – jeevatkm

似乎Go的方式仍然不存在。也许你应该尝试从Go调用另一个库？（Apache Tika的工作很不错） – Kiril

你可以有一个消息，例如 “PDF文档为例。”而不是

Ex 
a 
m 
pl 
e 

of 

a 

pd 
f 

doc 
u 
m 
e 
nt 
.

你需要做的是改变textBuilder.WriteString(p.GetPlainText("\n")) 到

textBuilder.WriteString(p.GetPlainText(""))

我希望这有助于。

来源

2017-07-31 11:05:13

如何从PDF中提取纯文本golang

回答

相关问题