任何人都可以帮助我从网站上使用Python“提取”东西吗?这里是信息: 我有文件夹名称与一组数字(他们是项目的ID),我必须使用该ID进入页面,然后从页面“废”信息到我的记事本...这就像这样:http ://www.somesite.com/pic.mhtml?id = [ID] ...我需要从图片链接中提取图片链接(图片链接总是在文件末尾有ID.jpg)并将其写入记事本中然后用该图片的名称替换该txt名称...图片始终在标题标签...在此先感谢...如何使用Python将网页元素解析为记事本?
-1
A
回答
0
您需要的是一个数据刮板 - http://www.crummy.com/software/BeautifulSoup/将帮助您将数据从网站拉出。然后,您可以将该数据加载到变量中,将其写入文件,或者执行通常对数据执行的任何操作。
0
你可以尝试解析图像的html源代码。 尝试类似的东西:
class Parser(object):
__rx = r'(url|src)="(http://www\.page\.com/path/?ID=\d*\.(jpeg|jpg|gif|png)'
def __crawl(self, url):
images = []
code = urllib.urlopen(url).read()
for line in code.split('\n'):
imagesearch = re.search(self.__rx, line)
if imagesearch:
image = '%s.%s' % (imagesearch.group(2), imagesearch.group(4))
images.append(image)
return images
它untestet,你可能要检查的正则表达式
相关问题
- 1. 如何使用python解析json元素?
- 2. 将标记解析为元素树
- 3. 如何使用C#将网页保存为文本文件供以后解析
- 4. 如何使用Python访问网页中的任何元素?
- 5. 使用python解析网页上的HTML和脚本?
- 6. 解析网页使用PowerShell
- 7. 如何解析HTML元素?
- 8. JAXB - 将元素解析为字符串
- 9. jQuery:将JSON解析为元素数组
- 10. 如何使用二进制元素将数据解析到Python列表中?
- 11. 如何使用Selenium-Python突出显示网页上的元素?
- 12. 如何解析网页
- 13. XSLT - 如何使用递归元素将xml解析到Eclipse toc.xml?
- 14. 如何使用JAXB将空标记解析为标记元素的名称而不是空字符串的值?
- 15. 解析元素内部为空元素的文本
- 16. 如何将嵌套的React组件解析为元素树?
- 17. 如何在响应式网页中为一行使用单个网页元素
- 18. 如何使用记事本++
- 19. 如何使用记事本++
- 20. 使用JDOM将文本解析为XML
- 21. Python解析特定标记中的所有元素
- 22. 使用Python从网站中提取网页元素
- 23. 使用Python将网页保存为PDF?
- 24. 使用SAX解析常用XML元素
- 25. 如何使用C#将网页元素值转换为字符串变量
- 26. 如何用JavaScript拖拽网页元素
- 27. 用Python解析html标记
- 28. Python XML解析 - 对齐索引元素
- 29. 用DOM解析元素
- 30. Rcurl使用类标记解析HTML网页