使用OpenOffice/LbreOffice和JODConnector 这也主要适用于.doc到.docx。虽然我还没有制定出图形的问题。
private static void transformDocXToPDFUsingJOD(File in, File out)
{
OfficeDocumentConverter converter = new OfficeDocumentConverter(officeManager);
DocumentFormat pdf = converter.getFormatRegistry().getFormatByExtension("pdf");
converter.convert(in, out, pdf);
}
private static OfficeManager officeManager;
@BeforeClass
public static void setupStatic() throws IOException {
/*officeManager = new DefaultOfficeManagerConfiguration()
.setOfficeHome("C:/Program Files/LibreOffice 3.6")
.buildOfficeManager();
*/
officeManager = new ExternalOfficeManagerConfiguration().setConnectOnStart(true).setPortNumber(8100).buildOfficeManager();
officeManager.start();
}
@AfterClass
public static void shutdownStatic() throws IOException {
officeManager.stop();
}
您需要运行LibreOffice作为serverto进行此项工作。 在命令行中,您可以使用此功能;
"C:\Program Files\LibreOffice 3.6\program\soffice.exe" -accept="socket,host=0.0.0.0,port=8100;urp;LibreOffice.ServiceManager" -headless -nodefault -nofirststartwizard -nolockcheck -nologo -norestore
来源
2012-08-16 17:06:22
JFK
我真的无法进入Tika项目来解析文字fils。了解解析Word文件的任何其他项目或者如何自行解析它的示例项目/说明。我只需要格式化和图片旁边的文字文件中的常规文字。 – Ismet 2011-05-24 15:52:35
Tika应该很容易上手!只需抓住Tika CLI程序并将文件传递给它,就可以获得XHTML。对此感到满意,然后开始自己调用Java。 – Gagravarr 2011-05-25 11:38:11