我想解析推文的文本文件并删除URL并将它们放入urls.txt文件中。目前,我有这样的正则表达式:Perl 5:如何提高URL解析的正则表达式
($line =~ /((?:https?|ftp|telnet|gopher|file|imap):\/\/[\w\-\.\~\!\*\'\(\)\;\:\@\&\=\+\$\,\/\\\?\%\#\[\]]*)/)
但是,当我想进一步巩固它,它即使是现在相当笨拙,我想知道是否有什么办法可以检查valid URL characters(中[\w\-\.\~\!\*\'\(\)\;\:\@\&\=\+\$\,\/\\\?\%\#\[\]]*
部分)使用类似数组或散列的东西。或者任何不会如此不必要的冗长的东西。
我的代码的其余部分可以提供,如果需要出于任何原因。
说更多关于“想要进一步构建” – ysth 2014-10-30 16:52:19
这似乎是一个XY问题。你想达到什么目的? – Sobrique 2014-10-30 16:53:33
@ysth据我所知,其中一些字符作为域名的一部分无效。 – 2014-10-30 17:12:19