lucene

    6热度

    2回答

    能否请您就lucene性能的步骤提出建议。特别是对于大数据(大约1TB的pdf文件被索引)

    4热度

    5回答

    我只是想知道,如果我们能够实现Lucene的RDBMS功能。 例: 1)我有10,000个项目文档(PDF文件),它必须与他们的内容进行索引,以使其可用于搜索。 2)每个文档都与单个项目相关。该项目可以包含项目名称,编号,开始日期,结束日期,位置,类型等详细信息。 我必须在pdf文件的内容中搜索给定的关键字,但显示结果时我想显示第(2)点所述的项目元数据。 我的想法是一个叫专案编号字段建立索引时每

    4热度

    5回答

    我有一个可以使用Lucene搜索的网站。我从日志中注意到,用户有时找不到他们要查找的内容,因为他们输入了单数术语,但是该网站只使用该术语的复数版本。我希望搜索能够找到其他形式的单词的用法。这是一个我肯定已经解决了很多次的问题,那么最佳做法是什么? 请注意:本网站只有英文版。 我想到了一些方法: 某种词库文件,以确定给定单词的替代形式中查找的单词。 一些例子: 搜索 “汽车”,还加上 “车” 来查询

    2热度

    2回答

    我正在使用Lucene.Net'sMultiFieldQueryParser在我的文档中搜索多个字段。我想找出文本被找到的字段。例如,我的搜索可能是这样的: var parser = new MultiFieldQueryParser(new string[] {"question","answer"}, analyzer); var query = parser.Parse(searchphr

    2热度

    7回答

    在.net Web应用程序中使用Lucene API。 我想为所有请求使用Indexsearcher的相同实例。因此我们将indexsearcher实例存储在http缓存中。 这里是我的同一代码: if (HttpRuntime.Cache["IndexSearcher"] == null) { searcher = new IndexSearcher(jobIn

    0热度

    2回答

    所以我一直在使用一个爬虫脚本来使用Zend Lucene搜索来索引我网站上的所有页面。我已经能够使脚本正常工作,但出于某种原因,无法在页面上找到其他链接。这个问题似乎是当脚本打find方法: $hits = $index->find('url:'.$targets[$i]); 当我执行该脚本有数组这样的履带式指数只有起始URI中没有命中。关于我可以尝试的任何想法?

    1热度

    1回答

    有没有人试图将Lucene索引存储在JBoss Cache中?有没有好的Lucene目录的实现呢?我发现源仅限于this,但我找不到任何文档或推荐。 基本上我想要做的是将Lucene索引存储在JBoss Cache中,并使用GridGain支持编写的应用程序(GridGain几乎支持JBoss Cache)进行操作。 请分享您的想法。

    2热度

    3回答

    我用这个来创建索引与Zend Lucene的非常简单的公司指数: // store company primary key to identify it in the search results $doc->addField(Zend_Search_Lucene_Field::Keyword('pk', $this->getId())); // index company fields

    4热度

    1回答

    根据website Katta是一个可扩展,容错,分布式,索引的数据存储。 我想知道它是否已准备好部署到生产环境中。任何人已经使用它并有建议?任何陷阱?建议?褒奖?请分享。 任何答案将不胜感激。

    14热度

    2回答

    这是坦承类似(但不是重复)Comparison of full text search engine - Lucene, Sphinx, Postgresql, MySQL?,但是我所寻找的是具体的,支持,从多个可用系统的经验的好处的建议(似乎有很多的:“我用过lucene,但不是狮身人面像”,反之亦然)。 设置:标准LAMP(Mysql 5.0,PHP 5)。 MySQL的:表使用InnoDB引