Google阅读器如何从网页中提取新闻内容？

我想知道Google Reader如何从网页中提取新闻内容。Google阅读器如何从网页中提取新闻内容？

有任何影响，你知道它是如何工作的？或者某人如何建立一个类似的系统，从网页的HTML中提取相同的信息。

显然是不符合使用标准的（也不是只有在阅读RSS/ATOM），因为谷歌阅读器证明了它可以读取网页的内容，无论标记的样子。

2011-12-20 Mo Valipour

谷歌阅读器没有您描述的功能。它曾经有一个“跟踪更改”功能（http://googlereader.blogspot.com/2010/01/follow-changes-to-any-website.html），但它已被删除（http：//googlereader.blogspot的.com/2010/09 /转弯偏离磁道-变化-feature.html）。 – 2011-12-25 04:33:35

那么为什么订阅任何博客类型的网页正确显示新闻？例如http://jesseliberty.com/ – 2011-12-25 12:28:50

http://jesseliberty.com/具有RSS馈送，这是由<链路的rel = “备用” 类型= “应用/ RSS + xml” 的HREF的存在用信号通知=“HTTP ：//jesseliberty.com/feed/“/>元素。当给定常规页面的URL时，Google阅读器（和其他RSS阅读器）查找此“自动发现”元素并订阅它指向的提要URL。 – 2011-12-26 21:45:22

谷歌阅读器目前没有从原始网页中提取任何内容。它曾经有一个"track changes to arbitrary pages" feature，但那是一年多前的removed。

当考虑到是不是饲料的网址，谷歌阅读器读取其内容。如果内容是HTML，则会查找<link rel="alternate" type="application/atom+xml" href="feed.xml">表单的autodiscovery元素。如果找到，它订阅饲料。

来源

2011-12-26 22:54:27

-2

您已经通过“RSS”标记您的问题回答了你的问题。

无论如何，谷歌阅读器像所有其他的RSS/Atom阅读器阅读RSS或Atom提要。您可能需要查看相应的维基百科文章：http://en.wikipedia.org/wiki/RSS

来源

2011-12-20 23:15:27 radkappe

这是不正确的，谷歌阅读器也读取HTML网页的内容，这是这个问题的主题。RSS添加到标签以吸引注意的人对RSS感兴趣 – 2011-12-20 23:23:03

谷歌阅读器不像“任何其他RSS/ATOM阅读器”一样 – 2011-12-20 23:23:26

哦，对不起！我没有意识到这一功能（显然只适用于英文版和英文版）。也可能意味着他们以某种方式解析网站中的句子/单词... – radkappe 2011-12-20 23:30:14

Google阅读器如何从网页中提取新闻内容？

回答

相关问题