2010-04-08 52 views
1

我希望能够从任意数量的不同来源的自由文本生成标签云。为了清楚起见,我不是在讨论如何在已经发现关键标签/短语时显示标签云,我希望能够自己发现有意义的短语......在PHP/MySQL堆栈上更可取。标签云端数据后端

如果我必须自己做这件事,我首先要为单词/短语建立某种索引,为任何单词/短语给出“正常”的频率。例如“君士坦丁堡”平均每1,000,000字出现一次(正常频率“0.000001”)。然后,当我分析一个文本主体时,我会找到单个词/短语(另一个挑战!),找到每个输入内的频率,并根据预期的频率进行测量。与预期频率比率最高的词在云中获得提升优先级。

我想相信其他人已经这样做了,比我希望的更好,但是如果我能找到它,我会被诅咒的。

任何建议?

回答

1

您需要一个倒排索引,供全文搜索引擎使用。像Lucene或Xapian这样的文本搜索库应该有所帮助,许多这样的库都有PHP绑定。