2011-03-14 39 views
0

我需要计算文档内所有条款的频率。我怎样才能做到这一点 ? 我不要求密码。我只是要求指导。其实我正在做一些文件和查询之间的相似度计算。我已经为查询计算了术语频率。 但我不知道如何计算文件内每个单词的tern频率。任何人都可以引导我?感谢您的关注。需要统计文档中每个条款的频率

+0

你能指定文档如何表示吗? – ThomasRS 2011-03-14 15:56:53

+0

您是否在发布之前尝试搜索?这被问**很多**。 – 2011-03-14 15:59:50

+0

如果你正在寻找术语频率,[这是一个python程序](https://github.com/timtrueman/tf-idf/blob/master/tf-idf.py)将会计算出它。你可能想看看这个。 – slhck 2011-03-14 16:00:56

回答

1

您可以使用HashMap,其中key是您的术语和值 - 它的频率。每次你看到你的期限,你都会增加价值。文件完成后,你有你的号码。

1

是,使用HashMap的保存价值,并要经过文件,你可以使用一个Scanner

0

在Java中你一定要留在HashMap<String, Integer>。术语将是HashMap键和术语频率值。