2010-07-28 79 views
1

我正在查看可以区分博客和普通网站的内容。这些是程序需要能够从网站的html或网站支持的特定功能中识别出来的东西。例如。坪。新闻网站也一样。博客的分层功能,即博客和普通网站之间的区别

我正在制作一个博客/新闻监视器程序,它将索引网站以自动确定它是博客还是新闻网站,然后在其评论等网站的帖子中监控用户反馈,博客或新闻性质。

所以我真正的是建议我可以使用或寻找在识别这些网站。

这将是一个用java编写的桌面应用程序,所以如果你在java中有任何代码细节将会很棒。

在此先感谢

+0

我改进了这个问题上的标记。我删除了'java',因为这与java没有任何关系。如果您找到可行的解决方案,请执行一些Java研究并针对您遇到的任何问题提交具体的问题。我还添加了html解析和检测。 – 2010-07-28 20:10:06

回答

1

您可以搜索页单词“博客”,因为这可能会出现。具体而言,您可以在HTML页面的某些部分查找它,或者排除部分 - 如链接。这会给你一个体面的起点。

但是,最终,这是必须手动完成的事情。你应该为人们构建一个接口,以便在网站提交时指定它是博客还是新闻网站,或者是它的不同功能。然后,您应该创建一个网站和功能的数据库,并将其标记,以便您或其他管理员可以查看它们并进行更改。一旦你为一个网站做了这个,你永远不需要再做一次,所以例如http://*.wordpress.com/就是博客。

某些功能可以自动检测或获得很好的检测机会,但最终需要手动检查。

+0

感谢您的编辑和建议 – zcourts 2010-07-29 23:11:07

0

寻找一个可发现的RSS或Atom提要,它应该出现在博客或连续更新的新闻网站上。

+0

谢谢,我有rss在脑海中,我会寻找其他人。 – zcourts 2010-07-29 23:11:56