我将如何使正则表达式只获得单词“标题”,并过滤掉其余的。URL正则表达式开始和结束与
标题可以改变
例子:
http://blogx.blogspot.com/2012/04/TITLE.html?showComment=13348745236XXXXXXX
我得到了什么:
http://[a-z{1,20}].blogspot.com/{4}/{2}/______\.(.*)$
我将如何使正则表达式只获得单词“标题”,并过滤掉其余的。URL正则表达式开始和结束与
标题可以改变
例子:
http://blogx.blogspot.com/2012/04/TITLE.html?showComment=13348745236XXXXXXX
我得到了什么:
http://[a-z{1,20}].blogspot.com/{4}/{2}/______\.(.*)$
试试这个
blogspot\.com\/.*?([^\/]+)\.html
([^\/]+)
是一个否定的字符类,将不是一个斜杠,直到出现“ html的”匹配任何内容。
你会发现在捕获组“标题” 1
你尝试了其他的问题,除了缺少标题部分
http://[a-z{1,20}].blogspot.com/{4}/{2}/______\.(.*)$
^^^^^^^ ^^^ ^^^
的量词必须是外人物类。
你在这里只提供了量词。这将匹配7 /
连续(顺便说一句,取决于你的正则表达式风格和/或正则表达式分隔符,你需要跳过斜线)。
使用您正则表达式的解决方案可能看起来像
http://[a-z]{1,20}.blogspot.com/\d{4}/\d{2}/([^\/]+)\.(.*)$
看到它在Regexr
(?<=http://blogx\.blogspot\.com\/\d{4}/\d{2}/).*?(?=\.)