我正在查看可以区分博客和普通网站的内容。这些是程序需要能够从网站的html或网站支持的特定功能中识别出来的东西。例如。坪。新闻网站也一样。博客的分层功能,即博客和普通网站之间的区别
我正在制作一个博客/新闻监视器程序,它将索引网站以自动确定它是博客还是新闻网站,然后在其评论等网站的帖子中监控用户反馈,博客或新闻性质。
所以我真正的是建议我可以使用或寻找在识别这些网站。
这将是一个用java编写的桌面应用程序,所以如果你在java中有任何代码细节将会很棒。
在此先感谢
我正在查看可以区分博客和普通网站的内容。这些是程序需要能够从网站的html或网站支持的特定功能中识别出来的东西。例如。坪。新闻网站也一样。博客的分层功能,即博客和普通网站之间的区别
我正在制作一个博客/新闻监视器程序,它将索引网站以自动确定它是博客还是新闻网站,然后在其评论等网站的帖子中监控用户反馈,博客或新闻性质。
所以我真正的是建议我可以使用或寻找在识别这些网站。
这将是一个用java编写的桌面应用程序,所以如果你在java中有任何代码细节将会很棒。
在此先感谢
您可以搜索页单词“博客”,因为这可能会出现。具体而言,您可以在HTML页面的某些部分查找它,或者排除部分 - 如链接。这会给你一个体面的起点。
但是,最终,这是必须手动完成的事情。你应该为人们构建一个接口,以便在网站提交时指定它是博客还是新闻网站,或者是它的不同功能。然后,您应该创建一个网站和功能的数据库,并将其标记,以便您或其他管理员可以查看它们并进行更改。一旦你为一个网站做了这个,你永远不需要再做一次,所以例如http://*.wordpress.com/就是博客。
某些功能可以自动检测或获得很好的检测机会,但最终需要手动检查。
感谢您的编辑和建议 – zcourts 2010-07-29 23:11:07
我改进了这个问题上的标记。我删除了'java',因为这与java没有任何关系。如果您找到可行的解决方案,请执行一些Java研究并针对您遇到的任何问题提交具体的问题。我还添加了html解析和检测。 – 2010-07-28 20:10:06