2009-06-19 132 views

回答

3

渲染文本大小? 用户可以使用他/她的浏览器设置随意更改文字大小。 更不用说不同的浏览器呈现相同的内容略有不同。

+0

将使用浏览器的默认大小,除非它设置在某处。通常CSS中的字体总是至少设置一次。爬虫应该查看DOM层次结构来确定使用了哪种CSS设置,除非它被HTML本身的内联CSS覆盖。相当多的工作,但可能的。虽然将标题与普通文本分开以便更好地了解是什么,但可能会更容易。 – Alec 2009-06-19 21:26:02

0

如果你满意的答案是为“默认”,为了这个目的没有用户自定义视图(这很可能),我相信你正在寻找一个相当痛苦的情景:

  • 嵌入在您的蜘蛛中支持CSS 的渲染引擎。希望 使用与您的用户的大多数 匹配的引擎,或者使用 所有三种通用引擎,并存储 所有这些引擎的信息。您的消费技术在 嵌入方便程度差异很大。

  • 将正在爬行的URI加载到 渲染引擎中。

  • 使用引擎的API,查询它的 字体规格包含你认为 代表文本元素 (选择这 为此我甚至不会 开始预测策略的运动)。 如何访问此操作完全取决于 您的 引擎的嵌入方案。

我希望这是'硬道路',但我不确定是否有'简单'的方法。