我想构建一个scrape工具,它导入一个csv文件,然后将csv的每一行附加到一个url,然后为特定字段擦除该url。到目前为止,该工具将所有的URL和擦伤的数据,但它只返回数据为第2,只是显示为休息的网址:刮刀只返回前2个输入的结果
import urllib
import re
import requests
from numpy import genfromtxt
from time import sleep
my_data = genfromtxt('ASINS.csv', delimiter=',', dtype=None)
for ASIN in my_data[:20]:
url = "http://www.amazon.com/gp/product/" + ASIN[1:11]
sleep(1.5)
website_html = requests.get(url).text
print len(website_html)
print url
ranks = re.findall(r'#.\sin\s.*', website_html)
for rank in ranks:
print rank
输出只返回刮为先,下面的例子:
344781
http://www.amazon.com/gp/product/B00DPE9EQO
#1 in Beauty (<a href="http://www.amazon.com/gp/bestsellers/beauty">See Top 100 in Beauty</a>)
1378
http://www.amazon.com/gp/product/B00CD0H1ZC
327515
http://www.amazon.com/gp/product/B00GP184WO
1378
http://www.amazon.com/gp/product/B00CAZAU62
1378
http://www.amazon.com/gp/product/B00KCFAZTE
1378
http://www.amazon.com/gp/product/B00C7DYBX0
3
,并从CSV剪断:
B00DPE9EQO
B00CD0H1ZC
B00GP184WO
B00CAZAU62
B00KCFAZTE
B00C7DYBX0
B00IS8Y0HK
B00CKFL93K
B00DDT116M
B00GYF65TK
B00JV8L5N8
任何人都可以给我为什么它可能是这个产品的投入?
哇这个作品非常漂亮!如果我只想返回第一个类别而不是子类别,我将如何更改该部分? – amazingacademy 2014-10-03 16:08:41
@amazingacademy让我问你,第一类是什么意思。例如,对于[本产品](http://www.amazon.com/gp/product/B00DPE9EQO),您期望的输出是什么?谢谢。例如, – alecxe 2014-10-03 16:11:23
例如,一种产品将是健康和个人护理>维生素和膳食补充剂中的#1,以及健康和个人护理中的#3。它在亚马逊产品页面上列出,如果它不止一个。我想只返回第一个。 – amazingacademy 2014-10-03 16:16:13