为什么DownThemAll不能识别我的reddit URL正则表达式？

所以我试图使用AutoPagerize和DownThemAll的组合来下载我所有的旧reddit文章。为什么DownThemAll不能识别我的reddit URL正则表达式？

这里有两个样本网址我要区分之间：

我试图用正则表达式是：（\ B）的http：/ /www.reddit.com/([^?\s]*）？

我希望我的所有reddit文章已下载，但我不希望有任何冗余，所以我想匹配我的所有reddit帖子，除了带有问号的任何内容（之后有一个“context = 3”字符）。

我用RegEx Buddy表明regexp适合第一个URL，但不适用于第二个。但是，DownThemAll不承认这一点。是DownThemAll解析正则表达式有限的能力，还是我做错了什么？

现在，我刚刚决定下载他们所有，但使用的*subdirs*.*text*.*html*重命名口罩，这样我以后可以去除大量含在其文件名中的单词“上下文”任何东西。

根据我的经验是什么内，相当多的正则表达式引擎不支持“命名”字类，如'\ s'一个'[' ......'范围。 – Cameron

哦 - 感谢您的信息！不幸的是，我发现了另一个正则表达式，我可以删除\ s，但它仍然不起作用。 :( – InquilineKea

你为什么使用'\ b'？ –

Reddit确实有一个API，你可能想看看，可能会更容易。

编辑：看起来像http://www.reddit.com/user/USERNAME/.json可能是你想要

2011-09-28 19:22:25

回答