我试图抢出标题使用网页的声明如下:Python的抓斗从一个HTML的所有链接,并只显示链接
titl1 = re.findall(r'<title>(.*?)</title>',the_webpage)
利用这一点,我得到['random webpage example1']
。我如何删除引号和括号?
使用该
我也想抓住一组每小时改变链接(这就是为什么我需要通配符):links = re.findall(r'(file=(.*?).mp3)',the_webpage)
。
我得到
[('file=http://media.kickstatic.com/kickapps/images/3380/audios/944521.mp3',
'http://media.kickstatic.com/kickapps/images/3380/audios/944521'),
('file=http://media.kickstatic.com/kickapps/images/3380/audios/944521.mp3',
'http://media.kickstatic.com/kickapps/images/3380/audios/944521'),
('file=http://media.kickstatic.com/kickapps/images/3380/audios/944521.mp3',
'http://media.kickstatic.com/kickapps/images/3380/audios/944521')]
我怎么没有file=
的MP3链接?
我也想下载的MP3文件,并与该网站的标题追加他们,它会显示
random webpage example1.mp3
我将如何做到这一点?我仍然在学习Python和正则表达式,这有点让我感到困惑。
[正则表达式一般不用于解析XML一个很好的候选人/HTML](http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454)。您可能会发现[BeautifulSoup](http://www.crummy.com/software/BeautifulSoup/)有用 - 抓取所有链接就像“soup.find_all('a')”一样简单。看看[文档](http://www.crummy.com/software/BeautifulSoup/bs4/doc/)。 – 2012-08-01 20:59:18
你应该看看更适合于URL解析的BeautifulSoup。 – xbb 2012-08-01 20:59:50
哦..你可能会发现这有助于格式化你的问题:http://stackoverflow.com/editing-help – 2012-08-01 21:02:09