2010-06-07 67 views
-1

我得抓取几个博客的内容。问题是,我需要分类作者是否来自特定学校的博客,并且正在谈论学校的内容。我可以知道在抓取过程中最好的方法是什么,或者我应该如何进行分类?需要网站分类帮助

回答

1

如果你正在寻找一个好的Python网页抓取工具,this question似乎有你正在寻找的所有信息。

至于分类博客是否正在讨论学校的东西,这是一个更棘手的问题。我怀疑你将不必再由人类来评估结果。一个非常复杂的刮板会使用概率过滤器 - 在博客文章上进行培训,博客文章会讨论学校,并让它推断规则本身。然而,这是相当复杂的,从我猜你想要快速和肮脏的问题。我只是把关键词列表放在一起,然后检查(并改进)结果,直到它足够接近你想要的结果。

至于识别作者,这是互联网,没有人知道你是否是一只狗(或者扩展而言,你上过什么学校)。如果您有一份要查找的作者列表,您始终可以将它们用作关键字搜索的一部分,但如果作者选择不识别自己(或者更糟糕的话,将自己标识为其他人),则没有实际的方法来执行此操作。

+0

嗨克里斯,从你说的话,可能我可以使用一个朴素的贝叶斯分类器,并具有基于关键字发生的训练数据集,也许是假设朋友的blogspots或wordpress url链接作为特征?这是正确的轨道吗? – goh 2010-06-07 04:27:31

+0

这是正确的想法。我会将您感兴趣的帖子的正面和负面样本放在一起,并将它们填入。显然,您查看的帖子越多,过滤器得到的效果越好。并且请记住定期检查结果,标记的帖子以及帖子不会被标记,以帮助改进。 – 2010-06-07 17:15:32

1

Web报废是一个问题。处理分类是一个整体领域。

你真的有两个选择:雇用一个知道如何去做或找出来的人。为了弄清楚,我强烈推荐Programming Collective Intelligence这本书。这些例子使用Python,使用真实世界的API,并邀请黑客寻找解决方案。每个章节处理集体智慧世界的一部分,例如分组或分类,通过一些基础知识,并提供大量参考以获取更多信息。即使您决定聘请专家,也可以跳过本书。