1
是否有一个Ruby或PHP的库,它能够解析HTML页面,并通过与其他类似页面进行比较来提取独特的数据......应该使用某种文本挖掘来识别哪些文本更可能是噪音和反复,而其它文本是较为独特的和有用的...从任意html页面提取有用的数据?
是否有一个Ruby或PHP的库,它能够解析HTML页面,并通过与其他类似页面进行比较来提取独特的数据......应该使用某种文本挖掘来识别哪些文本更可能是噪音和反复,而其它文本是较为独特的和有用的...从任意html页面提取有用的数据?
我是一个PHP的家伙,不知道关于Ruby但我认为,你想要的是平凡的档案: