2016-01-21 64 views
0

我试图提取URL,但每次我运行我的代码。它没有工作。错过了什么?任何帮助都会很棒。gsub错误提取URL与R,我错过了什么

X $ URL < - ( “(*)(http://www.bloomin.com)(JPG)()。”
“// 2 // 3” 中,x $ Product.Description。)GSUB

[1] // 2 // 3

这是我回来。我想从vector下面得到http://www.blooming.com/image/xxxxxxxx.jpg

<div>Colorful Floor chair Series</div><div><br /></div><div>Soft 
Suede</div><div><br /></div><div>Cute bubble design</div><div><br 
/></div><div><p align="center"><p align="center"><img 
src="http://gdetail.image-gemkt.com/186/716088198/2010/2/e3b117e2-a7bd-4d.GIF" 
/></div><div><p align="center"><p align="center"><img 
src="http://www.blooming.com/image/xxxxxxxx.jpg" /></div> 
+4

嗯哦。正则表达式与HTML? http://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags/1732454#1732454 – JackeJR

+0

并非如此:这是关于在HTML中匹配URL,而不是匹配HTML标签(链接的响应是适当的)。 – legoscia

回答

3
  1. 反向引用必须用反斜杠refered没有斜杠。

  2. 使用.*?非贪婪)来匹配其存在其间.com的所有字符和文件扩展名.jpg

    x$URL <- gsub("(?s).*\\b(http://www\\.blooming\\.com\\b.*?\\.jpg\\b).*", 
               "\\1", x$Product.Description.) 
    

DEMO

+0

你救了我!非常感谢 – HoKyun