第一关HTML行看起来是这样的:解析HTML行到CSV
<tr class="evenColor"> blahblah TheTextIneed blahblah and ends with </tr>
我会展示真实的HTML,但我很抱歉地说,不知道如何阻止它。 感觉羞耻
使用BeautifulSoup(Python)或任何其它建议的屏幕抓取/解析方法我想约1200个.htm文件输出在同一目录成CSV格式。这最终将进入SQL数据库。每个目录代表一年,我计划至少做5年。
我一直在用glob
作为从一些建议做到这一点的最佳方式。这就是我迄今为止所做的,并且陷入了僵局。
import glob
from BeautifulSoup import BeautifulSoup
for filename in glob.glob('/home/phi/data/NHL/pl0708/pl02*.htm'):
#these files go from pl020001.htm to pl021230.htm sequentially
soup = BeautifulSoup(open(filename["r"]))
for row in soup.findAll("tr", attrs={ "class" : "evenColor" })
我意识到这是丑陋的,但这是我第一次尝试这样的事情。这个问题花了我好几个月的时间才意识到,我不需要手动将数千个文件复制并粘贴到Excel中。我也意识到,我可以从挫折中重复踢我的电脑,它仍然有效(不推荐)。我越来越接近,我需要知道下一步做什么,以使这些CSV文件。请帮忙或我的显示器最终被锤击。
btw感谢MYYN的帮助b4。我放弃了,现在我回来了(希望)更清晰的更具体的问题。 – northnodewolf 2009-07-06 09:53:03
要显示代码缩进它4个空格,它会自动为你逃脱。 – 2009-07-06 09:53:21