所以我只是想知道我怎么会从以下字符串中提取http://www.google.com
:如何从Python中的字符串中提取子字符串?
<div class="asdf"><a href="http://www.google.com">
比方说,我有一堆在里面链接一个巨大的字符串,我想提取所有内的链接一个href
的引号,我该怎么做?
所以我只是想知道我怎么会从以下字符串中提取http://www.google.com
:如何从Python中的字符串中提取子字符串?
<div class="asdf"><a href="http://www.google.com">
比方说,我有一堆在里面链接一个巨大的字符串,我想提取所有内的链接一个href
的引号,我该怎么做?
You need an HTML Parser。例如使用BeautifulSoup
:
from bs4 import BeautifulSoup
soup = BeautifulSoup(data)
for link in soup.select("div.asdf > a[href]"):
print(link["href"])
这将匹配所有具有href
属性直接位于div
元件具有“ASDF”类中的链接。
你也可以找到所有的输入文档中的a
元素:
for link in soup.find_all("a", href=True):
print(link["href"])
或者:
for link in soup.select("a[href]"):
print(link["href"])
您应该使用'regex'或'BeautifulSoup'做到这一点。 –
我认为他已经想要这个了,用'regex'标签来判断。 – TigerhawkT3
@ TigerhawkT3很好的通话,我没有看过标签。 –