2011-02-03 61 views
4

它的行为应该与Firefox的Delicious toolbar类似;它列出了可点击的标签。效果如下图所示:如何从给定的文本自动识别标签(关键词)?

enter image description here

的代码应该能够找到的文本关键词。任何好的算法或开源项目推荐?

我发现this post,但它对我的具体需求来说有点太笼统。

+0

好吧,我认为你需要比“仅列出可能的标签点击”更具体一些......美味是一个书签服务,你引用的问题是数据挖掘/文本挖掘。你想达到什么目的? – Kiril 2011-02-03 07:21:11

+0

编辑。我希望问题现在更清楚.. – lkahtz 2011-02-03 09:58:31

回答

6

我认为你正在寻找这些问题的答案之一,

一言以蔽之 - 您想提取从对unigram文本以某种方式代表其中的概念 - 一种技术被称为Pointwise Mutual Information,它在一个例子中被举例说明前两个链接。使用Python NLTK框架(已经有一些内置算法)可能是您最好的起点。

祝你好运!