有没有一种干净的方式来获得使用BeautifulSoup的HTML表格的第n列？

说我们看一下第一个表中的一个页面，所以：有没有一种干净的方式来获得使用BeautifulSoup的HTML表格的第n列？

table = BeautifulSoup(...).table

行可以与扫描干净的for循环：

for row in table: 
    f(row)

但为获得一列事情变得一团糟。

我的问题：是否有一种优雅的方式来提取单个列，无论是通过它的位置还是通过其'名称'（即出现在本列第一行的文本）？

来源

2011-04-03 Benjamin Nitlehoo

lxml比BeautifulSoup快很多倍，所以你可能想要使用它。

from lxml.html import parse 
doc = parse('http://python.org').getroot() 
for row in doc.cssselect('table > tr'): 
    for cell in row.cssselect('td:nth-child(3)'): 
     print cell.text_content()

或者，而不是循环：

rows = [ row for row in doc.cssselect('table > tr') ] 
cells = [ cell.text_content() for cell in rows.cssselect('td:nth-child(3)') ] 
print cells

来源

2011-04-03 20:59:27

有没有一种干净的方式来获得使用BeautifulSoup的HTML表格的第n列？

回答

相关问题