我得抓取几个博客的内容。问题是,我需要分类作者是否来自特定学校的博客,并且正在谈论学校的内容。我可以知道在抓取过程中最好的方法是什么,或者我应该如何进行分类?需要网站分类帮助
Q
需要网站分类帮助
-1
A
回答
1
如果你正在寻找一个好的Python网页抓取工具,this question似乎有你正在寻找的所有信息。
至于分类博客是否正在讨论学校的东西,这是一个更棘手的问题。我怀疑你将不必再由人类来评估结果。一个非常复杂的刮板会使用概率过滤器 - 在博客文章上进行培训,博客文章会讨论学校,并让它推断规则本身。然而,这是相当复杂的,从我猜你想要快速和肮脏的问题。我只是把关键词列表放在一起,然后检查(并改进)结果,直到它足够接近你想要的结果。
至于识别作者,这是互联网,没有人知道你是否是一只狗(或者扩展而言,你上过什么学校)。如果您有一份要查找的作者列表,您始终可以将它们用作关键字搜索的一部分,但如果作者选择不识别自己(或者更糟糕的话,将自己标识为其他人),则没有实际的方法来执行此操作。
1
Web报废是一个问题。处理分类是一个整体领域。
你真的有两个选择:雇用一个知道如何去做或找出来的人。为了弄清楚,我强烈推荐Programming Collective Intelligence这本书。这些例子使用Python,使用真实世界的API,并邀请黑客寻找解决方案。每个章节处理集体智慧世界的一部分,例如分组或分类,通过一些基础知识,并提供大量参考以获取更多信息。即使您决定聘请专家,也可以跳过本书。
相关问题
- 1. magento网站建设帮助需要
- 2. 需要帮助调整网站图像
- 3. 需要帮助的网格
- 4. 需要分层帮助
- 5. 需要类建模帮助
- 6. 需要帮助
- 7. 需要帮助
- 8. https网站所需的htaccess帮助
- 9. 需要帮助从网站中删除JQuery
- 10. 需要帮助我的网站商铺顶捐赠者每月
- 11. 需要帮助谷歌的搜索功能,预显示网站
- 12. 需要帮助了解网站数据库问题
- 13. 需要帮助铺设一个网站与dojo
- 14. 需要帮助在我的网站上集成DataTables
- 15. 需要帮助网站fakehits发电机问题与webrowser工具
- 16. 需要Zend表单支持Paypal网站的帮助
- 17. 需要帮助:从我的网站发布到Facebook页面墙
- 18. 需要帮助堆叠我的网站设计
- 19. 需要帮助从网站中删除iFrame破解?
- 20. 需要帮助让我的网站发布信息到Facebook墙
- 21. HTML/CSS:需要帮助修复我的网站
- 22. 我需要帮助从网站使用php
- 23. 需要帮助加快我的基于PHP的网站
- 24. 网站几乎完成在Squarespace:需要帮助中心视频
- 25. 需要帮助选择一个双语网站的框架
- 26. 我需要帮助定位我的网站上的按钮! HTML
- 27. 需要帮助在perl中抓取一个网站
- 28. 需要帮助在我的网站上的Rails
- 29. 需要帮助获取Java中的网站的HTML
- 30. 需要使用CURL登录网站的帮助
嗨克里斯,从你说的话,可能我可以使用一个朴素的贝叶斯分类器,并具有基于关键字发生的训练数据集,也许是假设朋友的blogspots或wordpress url链接作为特征?这是正确的轨道吗? – goh 2010-06-07 04:27:31
这是正确的想法。我会将您感兴趣的帖子的正面和负面样本放在一起,并将它们填入。显然,您查看的帖子越多,过滤器得到的效果越好。并且请记住定期检查结果,标记的帖子以及帖子不会被标记,以帮助改进。 – 2010-06-07 17:15:32