2010-09-19 76 views
0

我想读一个MS Word文档和识别标题/粗体字/ Underscored字等?有没有一种方法来编程解决这个问题?如果可能,我想在Java或PHP或Ruby中提出建议,否则如果有一些可用的元数据也让我知道。MS Word识别标题/字体等?

+0

http://stackoverflow.com/questions/188452/reading-writing-a-ms-word-file-in-php – NAVEED 2010-09-19 05:47:32

回答

1

你有java API可以做到这一点。我建议你看看Apache POI库。

+0

的Apache提卡的好项目,我发现它很多东西。 – realnumber 2010-09-19 18:44:00

1

这是关系到这个 What's a good Java API for creating Word documents?

有正在进行的API为这一个使用Apache POI的工作。

HWPF是我们 Microsoft Word 97中(-2007)文件格式 的端口纯Java的名字。它还提供有限的 只读支持以前的Word 6 和Word 95文件格式和Word 95文件格式。

HWPF的新合作伙伴Word 2007 .docx格式为XWPF。虽然HWPF 和XWPF提供了类似的功能,但 目前在它们两个之间没有通用的接口 。

http://poi.apache.org/hwpf/quick-guide.html