2010-06-21 49 views
1

我必须从网页/ Feed中构建标签云。一旦获得标签的单词频率表,就很容易构建tagcloud。但我的疑问是,如何从网页/ Feed中检索标签/关键字?如何从网页/ Feed中获取标签/关键字?

这是我现在在做什么:

获取内容 - >带HTML - >关键词列表

- >与\ S \ n \ T(空格,换行,制表)其拆分但是这并不好。

有没有更好的方法?

+2

为什么它不起作用? – 2010-06-21 21:04:47

+0

1.使用这种方法,你永远不会得到多字标签。 2.非字母(特殊符号)使标签意义更小(例如:在我的问题本身中,“\ s \ n \ t(空格,换行符,标签)”这整个将被视为单个标签) 3即使在分割标签之前用空格替换spl字符,它们也会影响标签的含义。 (例如:16.25将成为1625,www.google.com - > wwwgooglecom) – 2010-06-22 10:29:09

回答

0

你有什么是粗略的一阶近似。我想如果你回过头来查看数据并搜索2个单词短语的频率,然后搜索3个单词短语,直到可以被认为是一个标签的单词总数为止,那么您将更好地表示关键词频率。

您可以通过指定可作为短语(代词等)的一部分包含的某些单词来优化此粗略搜索模式。