2010-01-31 75 views
1

是否有一个Ruby或PHP的库,它能够解析HTML页面,并通过与其他类似页面进行比较来提取独特的数据......应该使用某种文本挖掘来识别哪些文本更可能是噪音和反复,而其它文本是较为独特的和有用的...从任意html页面提取有用的数据?

回答

2

我是一个PHP的家伙,不知道关于Ruby但我认为,你想要的是平凡的档案:

  • 使用类似Simple HTML DOM解析页面。
  • 为每个页面比较所有的DOM元素。
  • 获取具有不同内容的所有元素的路径,这些将是您的信号元素。