Flipkart.com产品的“价格”和产品使用Python

我已经写以下Python代码来提取项目的价格从flipkart.comFlipkart.com产品的“价格”和产品使用Python

import urllib2 import bs4 import re item="Wilco Classic Library: Autobiography Of a Yogi (Hardcover)" item.replace(" ", "+") link = 'http://www.flipkart.com/search/a/all?query={0}&vertical=all&dd=0&autosuggest[as]=off&autosuggest[as-submittype]=entered&autosuggest[as-grouprank]=0&autosuggest[as-overallrank]=0&autosuggest[orig-query]=&autosuggest[as-shown]=off&Search=%C2%A0&otracker=start&_r=YSWdYULYzr4VBYklfpZRbw--&_l=pMHn9vNCOBi05LKC_PwHFQ--&ref=a2c6fadc-2e24-4412-be6a-ce02c9707310&selmitem=All+Categories'.format(item) r = urllib2.Request(link, headers={"User-Agent": "Python-urlli~"}) try: response = urllib2.urlopen(r) except: print "Internet connection error" thePage = response.read() soup = bs4.BeautifulSoup(thePage) firstBlockSoup = soup.find('div', attrs={'class': 'fk-srch-item'}) priceSoup=firstBlockSoup.find('b',attrs={'class':'fksd-bodytext price final-price'}) price=priceSoup.contents[0] print price titleSoup=firstBlockSoup.find('a',attrs={'class':'fk-srch-title-text fksd-bodytext'}) title=titleSoup.findAll('b') print title

上述代码时指定“标题”提取执行打印价格没有问题。

Rs. 138

但是如下获得标题：

[<b>Wilco</b>, <b>Classic</b>, <b>Library</b>, <b>Autobiography</b>, <b>Of</b>, <b>a</b>, <b>Yogi</b>, <b>Hardcover</b>]

其理由将是显而易见，如果你有看看product page（使用“检查元素”）

的源代码现在，我如何提取适当格式的TITLE以便打印：

Wilco Classic Library: Autobiography Of a Yogi (Hardcover)

来源

2013-05-04 SAGAR

只需使用text方法上titleSoup

>>> titleSoup=firstBlockSoup.find('a',attrs={'class':'fk-srch-title-text fksd-bodytext'}) 
>>> titleSoup.text 
u'Wilco Classic Library: Autobiography Of a Yogi (Hardcover)'

这也将工作：

invalid_tags = ['b'] 
titleSoup=firstBlockSoup.find('a',attrs={'class':'fk-srch-title-text fksd-bodytext'}) 

for tag in invalid_tags: 
    for match in titleSoup.findAll(tag): 
     match.replaceWithChildren() 
print "".join(titleSoup.contents)

来源

2013-05-04 22:17:26

我只是不知道为什么我会想到这一点。谢啦！ – SAGAR 2013-05-04 22:38:45

没问题，很高兴它的工作。 – 2013-05-04 22:39:22

它会更容易从firstBlockSoup标签拿到冠军：

>>> firstBlockSoup.attrs['data-item-name'] 
'Wilco Classic Library: Autobiography Of a Yogi (Hardcover)'

来源

2013-05-04 21:54:33

没了！ KeyError：'data-item-name' – SAGAR 2013-05-04 22:06:48

我用你的代码加载了你所做的相同的URL。你的'titleSoup'元素为我返回'None'。 – 2013-05-04 22:57:08

这很奇怪。看完你的评论后，我执行了相同的代码10次。 _titleSoup_元素返回__None__ 10次的两次。我想不出任何可能的解释这种行为。如果你弄清楚，让我知道。谢谢。 – SAGAR 2013-05-04 23:47:20

回答

相关问题