2011-06-10 59 views

回答

3

如果你有,你需要指数也其他文件格式,你可能会发现在Apache Tika

一个更好的,更全面的解决方案,他们只是增加了一个CHM解析器最近(供参考:Support of CHM Format),这将是在下一个版本。

+0

谢谢你。我会看一下 :) – 2011-06-13 11:57:23

3

如果你正在谈论Microsoft Compiled HTML Help文件,你可以用JChm从它们中提取文本,然后以正常的方式对其进行索引。

+0

thnx。我会看一下。 :) – 2011-06-10 14:04:58

+0

要小心。可能有一个二进制和一个文本(.xml存储为.hhk)索引,并且它们可能不包含相同的内容。 – 2011-06-11 20:06:39

+0

我用ChmParser amd使用它的检索文件,并提出了一些解决方法。它似乎运作良好,并且.hhc问题已解决。 Thnx再次 – 2011-06-13 11:47:53

相关问题