1
我想创建一个具体的方式,从遗留的HTML中拉出文本。BeautifulSoup4 soup.find('标记',text = re.compile('我的文本'))只有工作有时
</table>
<table border="0" cellpadding="0" cellspacing="0">
<tr>
<td>Close Date:</td>
<td> June 19, 2008</td>
我的问题是,为什么是这样的:
soup.find('td', text=re.compile('Close'))
回报:
<td>Close Date:</td>
然而,当我尝试做一些更具体的它没有返回。
3210我想使脚本尽可能具体,以便我可以通过多个网页运行它,而不会出现错误的文本。
是否'soup.find( 'td',text = re.compile('Close \ s + Date:'))'工作?这将在'Close'和'Date'之间匹配一个或多个空格 - 如果该空间实际上是一个[不间断空格](http://stackoverflow.com/q/1357078/190597) (即' ') – unutbu
@unutbu我不相信'\ s'匹配' '。 – DyZ
是的!这确实奏效!很多信息 –