2013-09-29 53 views
0

我以为我有一个简单的问题,但不知何故,我无法找到答案的来源....哪些文档格式可以通过与Railo 4.0打包的Lucene版本进行索引?Railo 4 - Cfindex/Lucene支持哪些文档格式?

不知何故.doc和.pdf似乎进展顺利,但docx和rtf似乎没有得到索引....是否有一个列表可用的地方?对于不支持的所有格式,通过cfindex获得该信息的最佳方式是什么?

 <cfindex 
     collection = "#collection#" 
     action = "update" 
     type = "file" 
     key ="#ABSfilepath#" 
     title="#ABSfilepath#" 
     > 

谢谢!

问题还发布到Railo邮件列表:web link

+0

看起来你还在Railo Google Group上发布了这个问题。由于Railo人员密切监视该组,因此您比此处更有可能对此处的特定问题得出明确的答案。 –

+0

嗨 - 我同意...只是使用所有可能有帮助的渠道;-) –

+1

当你在多个地方发布信息时,**提及它并提供链接** - 既为未来的搜索者带来好处,也让潜在的回复者可以检查如果他们浪费时间重复别人已经在其他地方说过的话! –

回答

0

Railo 4使用Lucene 2.4.1 - 你怎么看?同样,您可以告诉Railo使用的所有第三方软件的版本:找到JAR文件(位于lib/ext目录中),打开该存档文件(使用7-zip或同等文件),然后查看META-INF/MANIFEST。 MF,你找到了这样的内容:

规格 - 标题:Lucene的搜索引擎:核心 规格,版本:2.4.1 规范厂商:Apache软件基金会 实现-标题:org.apache.lucene 实施版本:2.4.1 750176 - 2009-03-04 21:56:52 实施 - 供应商:Apache软件基金会

这似乎是一个很老的版本,看起来不像Apache Lucene website上有任何文档。 (它可能可能通过替换相关JAR来升级Lucene,但这也可能导致依赖性问题;请自行承担风险。)

由于Lucene网站没有帮助,所以搜索“lucene 2.4”。 1可转位文件”带回a pertinent question about v2.3.2这问:

不Lucene的Java支持扩展*的.docx,* .PPTX,* .MPP即 的Microsoft Windows 2007文档的解析?

与响应:

Lucene的实际上并不支持任何文档类型。 会发生什么情况:某些程序用于将文件解析为可索引流 ,并对该流进行索引。过去曾经是POI。

好的,假设仍然准确,Lucene不控制文件类型,Apache POI

检查的JAR告诉我们Railo 4.0使用Apache POI V3.8和看POI changelog显示,.DOCX支持V3.5抵达

所以,您的.docx文件应该以一起支持其他MS Office格式。如果它绝对没有被编入索引,那么您可能需要确定它是POI问题还是Lucene问题或Railo问题 - 使用.doc和.docx文档创建简单的可重复测试用例可能是一个很好的第一步。

除此之外,您将需要熟悉Lucene/POI的人建议 - 可能或不会包含将包含可能的索引/检索错误的详细信息的日志文件,或直接与Lucene交互的方式(不通过Railo/cfindex)可以帮助确定问题所在。

+0

嗨,彼得 - 谢谢你的广泛答复。我需要深入了解为什么特定的文件格式没有被索引和其他文件格式。 如果有人需要具体的Lucene/POI有关测井等的知识......请! –