2013-04-27 56 views
-1

任何人都可以帮助我从网站上使用Python“提取”东西吗?这里是信息: 我有文件夹名称与一组数字(他们是项目的ID),我必须使用该ID进入页面,然后从页面“废”信息到我的记事本...这就像这样:http ://www.somesite.com/pic.mhtml?id = [ID] ...我需要从图片链接中提取图片链接(图片链接总是在文件末尾有ID.jpg)并将其写入记事本中然后用该图片的名称替换该txt名称...图片始终在标题标签...在此先感谢...如何使用Python将网页元素解析为记事本?

回答

0

你可以尝试解析图像的html源代码。 尝试类似的东西:

class Parser(object): 
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)' 

def __crawl(self, url): 
    images = [] 
    code = urllib.urlopen(url).read() 
    for line in code.split('\n'): 
     imagesearch = re.search(self.__rx, line) 
     if imagesearch: 
      image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4)) 
      images.append(image) 
    return images 

它untestet,你可能要检查的正则表达式