2009-06-27 116 views

回答

3

我写了一篇关于如何并行Lucene索引一个可怕的职位。它真的写得非常糟糕,但你会发现它here(有一些示例代码,你可能想看看)。

无论如何,主要的想法是你把你的数据分成大块,然后在单独的线程上工作。当每件作品完成后,你将它们全部合并成一个索引。使用上述方法,我能够索引约4百万条记录。 2小时。

希望这给你一个从这里走的想法。

+0

嗨埃斯特班 谢谢你的回应。我正在寻找类似于你所做的事情。您能否在您的博客中张贴一些代码片段。 谢谢, Gokul – Gokul 2009-06-27 04:52:43

1

除了写入方面(合并因子)和计算方面(并行化)之外,这有时是由于最简单的原因:输入缓慢。许多人从数据库建立Lucene索引。有时候你发现这个数据的特定查询过于复杂而且速度很慢,无法很快返回所有(200万?)记录。尝试只查询和写入磁盘,如果它仍然在5-9小时的顺序,你已经找到了一个优化的地方(SQL)。