这里库内发现什么是我的HTML数据:Python的BeautifulSoup find_all re.compile一组标签
<td>4.2.2</td>,
<td align="center"><a href="https://blah.org/blah-4.2.2.zip">zip</a> (<a href="https://blah.org/blah-4.2.2.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.2.zip.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-.2.2.tar.gz">tar.gz</a> (<a href="https://blah.org/blah-4.2.2.tar.gz.md5">md5</a>|<ahref="https://blah.org/blah-4.2.2.tar.gz.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-4.2.2-IIS.zip">IISzip</a> (<a href="https://blah.org/blah-4.2.2-IIS.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.2-IIS.zip.sha1">sha1</a>)</td>,
<td>4.2.1</td>,
<td align="center"><a href="https://blah.org/blah-4.2.1.zip">zip</a> (<a href="https://blah.org/blah-4.2.1.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.1.zip.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-4.2.1.tar.gz">tar.gz</a> (<a href="https://blah.org/blah-4.2.1.tar.gz.md5">md5</a> | <a href="https://blah.org/blah-4.2.1.tar.gz.sha1">sha1</a>)</td>,
<td align="center"><a href="https://blah.org/blah-4.2.1-IIS.zip">IIS zip</a> (<a href="https://blah.org/blah-4.2.1-IIS.zip.md5">md5</a> | <a href="https://blah.org/blah-4.2.1-IIS.zip.sha1">sha1</a>)</td>,
<td>4.2</td>
<td>1.0-platinum</td>
等。
我想重复这个页面,内拉出唯一的版本号:
<td>4.2.2</td>
标签。例如:
4.2.2
4.2.1
4.2
1.0白金
到目前为止,我曾尝试:
for tag in html.find_all('tbody', limit=1, string=re.compile("\<td\>(.*?)\<\/td\>")):
print(tag.content)
什么
rpart=html.find('tbody')
for tds in rpart.find_all('td'):
print(tds.find_all('\<td\>(.*?)\<\/td>'))
什么
results=rpart.find_all('td', tds=re.compile("\<td\>(.*?)\<\/td\>"))
什么
wphtml.find('tbody').find_all('td', tds=re.compile('\<td\>(.*?)\<\/td\>'))
什么
for p in rpart.find_all('td', digits=re.compile('\<td\>(.*?)\<\/td\>')):
print(p.contents)
什么
我也注意到,软件rpart是类型 “的ResultSet”,所以我愿意打赌它的东西很小在我失踪。我在做什么对神而言是错误的?
非常感谢,不幸的是,我卡住了使用BeautifulSoup。我忘了添加到我原来的帖子中,td标签中的一些文本具有字符,所以这就是为什么我有我的正则表达式指定以这种方式抓住它。 – metallica1973