2011-09-26 49 views
0

所以我试图使用AutoPagerize和DownThemAll的组合来下载我所有的旧reddit文章。为什么DownThemAll不能识别我的reddit URL正则表达式?

这里有两个样本网址我要区分之间:

我试图用正则表达式是:(\ B)的http:/ /www.reddit.com/([^?\s]*)?

我希望我的所有reddit文章已下载,但我不希望有任何冗余,所以我想匹配我的所有reddit帖子,除了带有问号的任何内容(之后有一个“context = 3”字符) 。

我用RegEx Buddy表明regexp适合第一个URL,但不适用于第二个。但是,DownThemAll不承认这一点。是DownThemAll解析正则表达式有限的能力,还是我做错了什么?


现在,我刚刚决定下载他们所有,但使用的*subdirs*.*text*.*html*重命名口罩,这样我以后可以去除大量含在其文件名中的单词“上下文”任何东西。

+2

根据我的经验是什么内,相当多的正则表达式引擎不支持“命名”字类,如'\ s'一个'[' ......'范围。 – Cameron

+0

哦 - 感谢您的信息!不幸的是,我发现了另一个正则表达式,我可以删除\ s,但它仍然不起作用。 :( – InquilineKea

+0

你为什么使用'\ b'? –

回答

相关问题