2017-01-29 24 views
0

我试图从使用BeautifulSoup/Python的网站刮表。出于某种原因,其中一个表似乎位于评论标签内。我可以在评论标签中获得整个文本,但我无法弄清楚如何在该文本上运行find_all命令以便能够在其中查找表格。在评论标签中查找标签 - Python

有什么方法可以告诉它,comment标签内的文本实际上是更多的HTML?

hockey-reference.com/boxscores/201701260BOS.html

我试图让在高级统计报告部分

+0

没有了2桌,因为评论里的任何东西是不是HTML结构。这是一条评论。 *可能*一些Javascript代码涉及在加载后通过加载数据到页面(通过AJAX,而不是从评论),但没有一个合适的例子,我们不能真正帮助。 –

+0

http://www.hockey-reference.com/boxscores/201701260BOS.html 我想要得到2表下的先进的统计报告部分 –

+0

发布url和你想要的输出 –

回答

0
import re 

# use table text find comment text 
table_text = soup.find(text=re.compile('table class="adv sortable stats_table"')) 

# use bs4 to parse the text 
table_soup = BeautifulSoup(table_text, 'lxml') 
# find_all .... 
table_soup.find_all('tr') 
+1

工作!谢谢! –