我试图找到一种方法来取文本块,用其他文本替换该文本中的所有网址,然后返回新文本大块和它找到的URL列表。喜欢的东西:查找并替换一段文本中的URL,返回文本+ URLS列表
text = """This is some text www.google.com blah blah http://www.imgur.com/12345.jpg lol"""
text, urls = FindURLs(text, "{{URL}}")
应该给:
text = "This is some text {{URL}} blah blah {{URL}} lol"
urls = ["www.google.com", "http://www.imgur.com/12345.jpg"]
我知道这会涉及到一些正则表达式 - 我发现了一些看似不错的URL检测正则表达式在这里: http://www.regexguru.com/2008/11/detecting-urls-in-a-block-of-text/
我敢垃圾与正则表达式,但是,我发现,让它做我想要的python相当棘手。 URL返回的顺序并不重要。
谢谢:)
你能试试我提供的更新正则表达式吗? – obsoleter
downvoted因为这个问题已被放弃 – obsoleter