我正在使用CAM :: PDF Perl模块来解析PDF。除了一个问题,模块工作得很好,它似乎随机分割单词。是否有任何方法通过设置或某种算法将这些单词重新组合起来?Perl CAM :: PDF分裂文字不正确
例如:
“在纽约和都柏林设有办事处。” -Notice纽约
“价格competit离子” 正价竞争
的一段代码低于:
$pdf = CAM::PDF->new($pdf_name);
$text = $pdf->getPageText($page);
print("$text\n");
;
您是如何使用模块的?显示你的代码,让想要帮助的人有一些事情可以开始。 – daxim 2011-06-06 19:49:28