2011-11-27 60 views
0

我正在为网络设计和编写基于知识的社区共享系统(论坛,Q & A,学生,教授和专家之间的文章共享)。将论坛讨论汇编成分类文章或信息的算法/方法?

我需要使用一些数据挖掘/文本处理技术/算法来分析专家和学生之间的讨论(使用标签对讨论进行分类)并针对特定类似主题创建适当的注释和汇编。

我不是关于这些算法或工具可用的专家。如果任何人都能向我提供一些提示或解释我可以如何解决这个问题,那将会很棒。

谢谢!

回答

0

对于文章的分类,您可以使用LSA(潜在语义分析)技术。

您可以检查这些工具进行文本处理。

  1. LingPipe:处理文本的工具包。

  2. Lucene:文本挖掘

  3. Solr:强大的文本搜索工具

0

开始阅读文本挖掘。对于你的问题没有一般的答案,因为它不够精确。你必须对你的目标更精确,然后人们可以为这些建议方法。你的“分析”过于宽泛。计算单词的数量也是“分析”!

所以:你想识别,分组或预测什么?

+0

谢谢您的回答。 基本上我想让程序做一个人可以稍后阅读的相似的讨论摘要(共享最大标签,以及类似的问题/主题)。 例如,假设一个问题收到20-25个答案,长短,提问者选择最佳答案,也许给其他人一个答案。该算法需要选择一组类似的问题(比如2/3),并以基本的问题 - (回答+辩论/挑战)格式生成摘要。 – Nilesh