我想制止的话我相似的程序,然后一个词干的单词和词干(去为搬运工1或2取决于什么最容易实现的)停止在java中
我在想,既然我从文件中读取我的文本作为整行,并将它们保存为一个长字符串,所以如果我有两个字符串前。
String one = "I decided buy something from the shop.";
String two = "Nevertheless I decidedly bought something from a shop.";
现在,我得到了这些字符串
词干: 我可以只直接使用词干algoritmen它,将它保存为一个字符串,然后继续在相似的工作就像我实现词干以前那样在程序中,像运行one.stem();之类的事情?
停止词: 这是如何工作的? O.o 我只是使用; one.replaceall(“I”,“”);还是有一些具体的方法来使用这个过程?我想继续使用字符串并在使用相似性算法获取相似性之前先获得一个字符串。维基并没有说太多。
希望你能帮助我!谢谢。
编辑:这是一个学校相关的项目,我正在撰写关于不同算法之间相似性的论文,所以我不认为我被允许使用lucene或其他库来为我做这项工作。另外我想在尝试使用Lucene和co之类的库之前了解它是如何工作的。希望这不是一个太大的麻烦^^
等待等什么你说的是,有已经在搬运工停用词功能词干? O.o对不起,我觉得我没有得到它。你能解释一下吗?我在想,如果波特的词干已经有这样或那样的功能。使用它会更容易;) – N00programmer 2011-05-25 17:06:53
@ N00 - 词干分析器只是将词汇修剪到词干的算法。它没有停止词的概念;但使用简单的哈希映射去除它们非常简单:将所有停用词放在哈希映射中,在输入词之前,如果它在哈希映射中,则可以放弃它,而不是放弃它。 – tucuxi 2011-05-25 17:21:58
是的,似乎我正在做一个比它更大的交易。谢谢回答。 – N00programmer 2011-05-26 09:36:28