我目前正在研究一个涉及程序的项目,该程序使用Python来检查网页的HTML。我的程序必须监视一个网页,当对HTML进行更改时,它会完成一组操作。我的问题是如何提取网页的一部分,以及如何监控网页的HTML并在发生变更时立即报告。谢谢。使用python从网站中提取HTML的部分
0
A
回答
1
Scrapy可能是一个很好的开始。 http://doc.scrapy.org/en/latest/intro/overview.html
获取网站的部分很容易,它只是xml,您可以使用scrapy或美丽的。
2
在过去,我写了自己的解析器。如今HTML是HTML 5,多个语句,更多的JavaScript,很多crappiness的开发人员和他们的编辑完成的,像
document.write('<SCR' + 'IPT
而且一些Web框架/开发者糟糕的编码改变的Last-Modified HTTP标头中的每一个请求,即使对于人来说,您在页面上阅读的文本也不会改变。
我建议你BeautifulSoup为解析的东西;通过您自己,您必须小心选择要监视的内容,以决定网页是否被修改。
其介绍:
BeautifulSoup是一个Python包,解析破HTML,就像 LXML支持它的基础上的libxml2的解析器。 BeautifulSoup使用不同的解析方法。它不是一个真正的HTML解析器,但使用正则表达式来浏览标签汤。因此,在某些情况下,更多的是宽容的,而其他的则不那么好。 并不罕见,lxml/libxml2更好地解析并修复了损坏的HTML,但 BeautifulSoup对编码检测有着卓越的支持。它非常依赖于解析器工作得更好的输入。
相关问题
- 1. 从网站中提取HTML部分?
- 2. 从网站中提取html
- 3. 使用python从网站提取数据
- 4. 使用Python从网站提取数据
- 5. 使用python从网页中提取部分
- 6. 在Python中获取html网站的一部分
- 7. 使用Python从网站中提取网页元素
- 8. 从可能使用Cookie的网站的URL中提取HTML内容通过Python
- 9. 从python中的URL中提取部分
- 10. 从其他网站嵌入HTML部分?
- 11. 使用python从html中提取文本
- 12. Android - 如何从FTP网站提取HTML
- 13. 无法从网站提取HTML
- 14. 用groovy提取部分HTML
- 15. 从Python中提取XML部分
- 16. 从外部网站提取信息
- 17. 提取从网站使用BeautifulSoup(Python)的具体信息
- 18. 提取从网站使用VBA
- 19. 使用iMacros从网站提取数据
- 20. 从网站使用rvest提取表格
- 21. 使用Python抓取部分HTML 3
- 22. 如何使用Python版本3x从网站读取html正文
- 23. 提取部分的网页
- 24. python3从xpath中提取HTML的html部分
- 25. 从网站中提取网址?
- 26. C#:从网站读取HTML
- 27. 从javascript保护的网站中提取HTML代码
- 28. 从网站提取图像
- 29. 从网站提取信息
- 30. 从网站提取价值