2012-04-19 64 views
0

我必须从一些网站上删除产品的图像,我正在使用JavaScript来刮取它。 到目前为止,我已经成功地刮的图像,如下面使用javascript刮取价格

var images = document.images; 

for (var i = 0; i < images.length; i++) { 
    img = images[i]; 

我也想从文档刮价格。我知道这是可能的,一些网站已经这样做,但不知道如何。 类似于通过文档文本匹配“价格”字符串似乎是一种可能性,但不知道如何做到这一点,还有没有更好的办法。 任何指针?

+0

我假设你的意思是“刮”而不是“废料”。 – 2012-04-19 20:15:54

+0

您的报废意味着什么? :S – mattytommo 2012-04-19 20:15:56

+1

@mattytommo他意味着他在抓取网页,在php中我们使用file_get_contents(),并遍历返回的obj/string ..不管。 – 2012-04-19 20:18:06

回答

1

这取决于您对该页面有多少了解。如果你盲目进行,你总是可以使用像document.body.innerHTML.match(/£\d+\.\d+/g)(或类似的东西,取决于货币)的东西。无论哪种方式,您都需要查找并匹配网页中的图案并从中获取价格。

对于奖励积分:看看他们是否有谷歌基本饲料(无保护) - 你会惊讶有多少人。这将(通常)成为可能需要的所有内容的XML提要。

+1

我将不得不看看你说的这个'谷歌基础饲料'。 – rlemon 2012-04-19 20:25:25

+0

@leonard,你的答案似乎很有趣。 可以请你解释一下你在这里定义的正则表达式的含义,对不起有些正则表达式和js中的初学者。 我会更多地关注Google Feed。不确定它到底是什么。 – asm234 2012-04-19 20:41:08

+0

正则表达式的精彩介绍:www.regular-expressions.info/ Google Base是Google购物/产品的另一个名称 - 商家告诉Google他们提供了哪些产品,以便Google可以通过它们向他们展示他们的产品购物网站。他们通过feed提供这些信息,通常是xml(有时是CSV)。有时可以找出/猜测/要求访问这些提要,这会让你的生活变得更轻松。 – LeonardChallis 2012-04-19 20:51:50