1
我想使用GO从pdf文件中提取文本。 我试着用ledongthuc/pdf Go包来实现方法GetPlainText()来获取没有格式的纯文本内容。 但我没有得到明文。我有一个结果:如何从PDF中提取纯文本golang
W
S
D
V
Y R
O
R
Q
W
D
L
U
H
P
H
Q
W
......
Go代码
package main
import (
"bytes"
"fmt"
"github.com/ledongthuc/pdf"
)
func main() {
content, err := readPdf("test.pdf")
if err != nil {
panic(err)
}
fmt.Println(content)
return
}
func readPdf(path string) (string, error) {
r, err := pdf.Open(path)
if err != nil {
return "", err
}
totalPage := r.NumPage()
var textBuilder bytes.Buffer
for pageIndex := 1; pageIndex <= totalPage; pageIndex++ {
p := r.Page(pageIndex)
if p.V.IsNull() {
continue
}
textBuilder.WriteString(p.GetPlainText("\n"))
}
return textBuilder.String(), nil
}
我已经尝试了几个PDF文件,库确实返回一个文件的纯文本不会返回另一个文件(只是垃圾字符和几个实际文本)。与开发人员联系更好。 – jeevatkm
似乎Go的方式仍然不存在。也许你应该尝试从Go调用另一个库? (Apache Tika的工作很不错) – Kiril