我想提出一个测验系统,当quizmakers插入到问题的试题库,我检查DB重复/非常非常类似的问题。全文检索相关性在?
测试MySQL的MATCH() ... AGAINST(),我得到最高的相关性是30+,当我测试针对100%相似的弦。
那么究竟什么是相关性?引用manual:
相关性值是非负浮点数。零相关意味着没有相似性。相关性的计算基于行中单词的数量,该行中唯一字的数量,集合中单词的总数以及包含特定单词的文档(行)的数量。
我的问题是如何测试的相关值,如果一个字符串是重复的。如果它是100%重复,请阻止它插入问题库。但是,如果它只是如此相似,请提示测验者验证,插入与否。那我该怎么做?对于100%相同的字符串,30+不是百分比,所以我是残缺的。
在此先感谢。
我更喜欢尽可能使用MySQL搜索引擎。如果我要比较自己,我需要做很多准备和检查,例如删除所有的空格和特殊字符,将全部转换为大写,以及不要。这是我的最后一招。 – syaz 2008-10-26 13:23:59