我正在寻找方法来刮去某个网站上的所有表格。这些表格在所有子页面中格式完全相同。问题是,这些子页面的网址是这样的:
url1 ='http .../Tom',
url2 ='http .../Mary',
url3 ='http .../Jason',这样我就不能通过递增地改变url来设置循环。有什么方法可以通过熊猫来解决这个问题吗?是否可以使用熊猫在多个网页上刮取html表格?
0
A
回答
0
另一个想法是先使用BeautifulSoup
库,并得到所有从网页的table
元素,然后应用pd.read_html()
0
我会假设在每个页面的数据实际为HTML格式table
元素,并且可以由熊猫进行处理。 (当然还有很多页面显示看起来像表不是HTML table
元素;它也检查一下。)
然后处理一个表中的代码可能是这样的:
df = pd.read_html(url, header=0)[0]
或这样的:
df = pd.read_html(url)[0]
我假设每个页面上只有一个感兴趣的表。事实上,你也可能发现read_html
的其他参数可能需要改变。
然后完整的代码会是这样的:
stub_url = 'http:// ...'
dfs = []
for ending in ['Tom', 'Mary', 'Jason']:
one_df = pd.read_html(stub_url + ending, header=0)[0]
dfs[ending] = one_df
+0
欣赏。不幸的是,我已经跟着你的代码,但它返回为:列表索引必须是整数或切片,而不是str。 –
+0
对不起,现在就试试吧。 –
相关问题
- 1. 使用熊猫获取多个表从网页
- 2. 用美丽的汤刮到熊猫的HTML表格
- 3. 从网页刮取HTML? - VB.NET
- 4. 当url不改变时,使用Selenium在多个页面上刮取表格
- 5. 刮HTML表格使用VBA
- 6. HTML表格刮使用VBA
- 7. 是否可以在同一网站的多个页面上使用Google Maps API?
- 8. 使用Python刮多个网页
- 9. 如何使用R或Python刮取多个页面的网页
- 10. 是否可以使用画布截取整个网页?
- 11. 从网页上刮取网页数据
- 12. 在不正确的网页上刮一个表格
- 13. 是否可以在网页上应用CSS,并分别使用网页的URL?
- 14. 熊猫 - 是否可以使用chunk =参数“倒带”read_csv?
- 15. 是否可以在同一个数据透视页中放置多个网格?
- 16. 熊猫:read_csv(读取单个文件中的多个表格)
- 17. 是否可以用美丽的方式来刮掉一个“动态网页”?
- 18. 网页(html)使用C#刮脸
- 19. 在html页面中有多个ID是否可以接受?
- 20. 使用R的Web网页刮取多个链接
- 21. 是否可以在多个母版页中调用Web表单?
- 22. 您是否可以在同一页面上使用不同主题的多个网格?
- 23. 是否可以使用HTML
- 24. 使用readHTML从https网页读取表格HTML表格
- 25. 使用多列在熊猫
- 26. 是否有可能在一个网页上托管一个HTML表格,多个用户可以同时进行编辑?
- 27. 刮多页在一个网站
- 28. 是否可以在MVC中使用多个主页3
- 29. PHP从表HTML标记网页刮
- 30. 如何刮取索引年份+页面的多个表格?
你事先知道的网址是什么?你在哪里得到网址? – jarcobi889
你如何在刮use中使用'pandas'? –
您可以尝试使用pd.read_html()方法,但是如果没有页面示例,则很难建议具体的任何内容。那么你能提供一个例子吗? – omdv