从任意html页面提取有用的数据？

是否有一个Ruby或PHP的库，它能够解析HTML页面，并通过与其他类似页面进行比较来提取独特的数据......应该使用某种文本挖掘来识别哪些文本更可能是噪音和反复，而其它文本是较为独特的和有用的...从任意html页面提取有用的数据？

我是一个PHP的家伙，不知道关于Ruby但我认为，你想要的是平凡的档案：

2010-01-31 11:52:25

回答