Web抓取 - 如何识别网页上的主要内容

鉴于新闻文章的网页（来自任何主要新闻来源，如时间或bloomberg），我想确定该网页上的主要文章内容，并抛出其他misc元素如广告，菜单，侧边栏，用户评论。Web抓取 - 如何识别网页上的主要内容

这样做的一般方法是什么，可以在大多数主要新闻网站上使用？

数据挖掘有哪些好的工具或库？（最好是基于python的）

2011-01-12 kefeizhou

看到Readability`书签是如何实现的`http://lab.arc90.com/experiments/readability/ – jfs 2011-01-12 18:07:38

一这样做的浏览器将对在线广告构成巨大威胁。 – 2011-01-12 18:29:12

原始书签的代码在这里：http://code.google.com/p/arc90labs-readability/source/browse/`可读性`现在是一种服务，它的代码不可用。 – lsh 2014-03-09 21:47:48

没有办法做到这一点可以保证正常工作，但是你可以使用的一种策略是试图找到里面最明显文本的元素。

2011-01-12 17:49:26 Amber

提取该页面上的RSS提要（<link type="application/rss+xml" href="..."/>）并解析提要中的数据以获取主要内容可能会更有用。

2011-01-12 17:54:39 nedk

注意：对于ATOM提要`type =“application/atom + xml”` – nedk 2011-01-12 17:59:20

一个好主意，但这可能会被打或失，因为很多提要只包含文章摘要。这是可以理解的，因为大多数新闻网站的重点是让你查看广告，而这通常不会在RSS阅读器中。 – Cerin 2011-01-13 02:23:53

我不会试图从网页上刮掉它 - 太多的东西可能会搞砸 - 而是看看哪些网站发布RSS提要。例如，监护人的RSS feed有大部分文字从他们的重要文章：

我不知道，如果泰晤士报（伦敦时报，不是纽约州）之一，因为它是一个付费墙。祝你好运...

2011-01-12 17:55:25 Spacedman

我见过的大多数RSS提要只有短文摘要。 – kefeizhou 2011-01-12 18:02:49

有很多方法可以做到这一点，但是，没有人会一直工作。这里有两个最简单的：

，如果它是一个已知的有限集合网站：在您的刮刀将每个URL从正常的URL到打印网址指定网站（不能真正跨站点一概而论）
使用arc90可读性算法（参考实现在JavaScript中）http://code.google.com/p/arc90labs-readability/。这个算法的简短版本是在它们内部寻找带有p标签的div。它不适用于某些网站，但通常很不错。

2011-01-12 18:06:48 gte525u