2016-11-07 90 views
0

你好,我有这种格式的倒排索引格式的文本是:减少索引格式的大小:文本

长期文档1,书2 poids1 poids2

我想减少他的大小我haave降低名字文档例如 文件1个将成为1 ..也为重例如2.5565465454重量将是2.55像这样examle在java中的

BigDecimal bd = new BigDecimal(w); 
bd = bd.setScale(2, RoundingMode.HALF_UP); 

请如果u有任何想法ü可以建议我以减少我不知道的大小编辑的代码,但只是一些想法

+0

为什么你想减少的文本版本大小?对于文本,通过一个标准的压缩实用程序,如gzip ...否则,如果你想减少非文本倒排文件结构本身的大小,使用索引prunning ...在哪里你可以从帖子列表中删除条目太低的重量... – Debasis

+0

谢谢你,但它的想法,以保持罕见的话,所以我不知道如果它索引prunning将帮助我 –

回答

0

你已经给出的例子是一个文本文件,可以从现有索引的文本转储获得(记住,指数基本上是组织为二进制,即非文本文件)。

在这方面,没有太多的使用修剪长文件名,例如“文档-1”到“D1”,因为在典型的实现中,例如Lucene,文档和术语由整数ID标识,而不是由它们的名称标识。

此外,还有在修整后小数没有意义的,例如“0.25555”到“0.25”,因为它们会占用相同数量的存储空间(通常为64位)。

什么可以真正帮助您就是Apache Lucene的,这是记录here的整理实用程序。该软件包支持通过各种不同的启发式算法进行索引修整,其中最简单的是基于tf和tf-idf的修剪,从术语t的发布列表中去除条目(t,d), -off TF(吨,d)TF(吨,d)X IDF(t)的值