2011-12-20 123 views
2

我想知道Google Reader如何从网页中提取新闻内容。Google阅读器如何从网页中提取新闻内容?

有任何影响,你知道它是如何工作的?或者某人如何建立一个类似的系统,从网页的HTML中提取相同的信息。

显然是不符合使用标准的(也不是只有在阅读RSS/ATOM),因为谷歌阅读器证明了它可以读取网页的内容,无论标记的样子。

+0

谷歌阅读器没有您描述的功能。它曾经有一个“跟踪更改”功能(http://googlereader.blogspot.com/2010/01/follow-changes-to-any-website.html),但它已被删除(http://googlereader.blogspot的.com/2010/09 /转弯偏离磁道-变化-feature.html)。 – 2011-12-25 04:33:35

+0

那么为什么订阅任何博客类型的网页正确显示新闻?例如http://jesseliberty.com/ – 2011-12-25 12:28:50

+1

http://jesseliberty.com/具有RSS馈送,这是由<链路的rel = “备用” 类型= “应​​用/ RSS + xml” 的HREF的存在用信号通知=“HTTP ://jesseliberty.com/feed/“/>元素。当给定常规页面的URL时,Google阅读器(和其他RSS阅读器)查找此“自动发现”元素并订阅它指向的提要URL。 – 2011-12-26 21:45:22

回答

1

谷歌阅读器目前没有从原始网页中提取任何内容。它曾经有一个"track changes to arbitrary pages" feature,但那是一年多前的removed

当考虑到是不是饲料的网址,谷歌阅读器读取其内容。如果内容是HTML,则会查找<link rel="alternate" type="application/atom+xml" href="feed.xml">表单的autodiscovery元素。如果找到,它订阅饲料。

-2

您已经通过“RSS”标记您的问题回答了你的问题。

无论如何,谷歌阅读器像所有其他的RSS/Atom阅读器阅读RSS或Atom提要。您可能需要查看相应的维基百科文章:http://en.wikipedia.org/wiki/RSS

+1

这是不正确的,谷歌阅读器也读取HTML网页的内容,这是这个问题的主题。RSS添加到标签以吸引注意的人对RSS感兴趣 – 2011-12-20 23:23:03

+1

谷歌阅读器不像“任何其他RSS/ATOM阅读器”一样 – 2011-12-20 23:23:26

+0

哦,对不起!我没有意识到这一功能(显然只适用于英文版和英文版)。也可能意味着他们以某种方式解析网站中的句子/单词... – radkappe 2011-12-20 23:30:14