2013-03-18 112 views
-2

我知道我不应该在HTML中使用正则表达式。 我想从一个HTML文件中提取图像源,下面的例子:正则表达式 - 从HTML中提取img src

这可能是这样的:

<img src = cid:header width="700" height="93" alt="Logo" /> 
<img src= cid:header width="700" height="93" alt="Logo" /> 
<img src =cid:header width="700" height="93" alt="Logo" /> 
<img src=cid:header width="700" height="93" alt="Logo" /> 

在每种情况下,I'ld喜欢拿“CID:标题”为结果。

由于我的正则表达式知识基本上是零,所以我转向你们。 我需要一个在“src”之后或“=”字符之后接受空格的模式。

SRC [mightBeSpace] = [mightBeSpace] CID:[mustNotBeSpace]

谢谢!

回答

2
^<img src\s?=\s?([^\s]+).*/>$ 
+1

我已经提供了这个,以匹配只包含您提供的内容的一行txt。请注意(正如@Kolink所指出的那样)RegEx在匹配HTML – rbedger 2013-03-18 18:11:11

+0

src \ s?= \ s?([^ \ s] +)时很糟糕,这是我唯一需要的派对,谢谢! – 2013-03-18 18:18:17

+0

请标记为答案,如果您认为它足够回答您的问题 – rbedger 2013-03-18 18:20:12

2

“可能是空间”中的正则表达式是\s*,以及“必须是没有空间”转换为\S+

利用这些信息,你应该能够建立一个正则表达式。如果你不能,请显示你的尝试。

+0

src \ s?= \ s?([^ \ s] +)解决了它,谢谢你的帮助! – 2013-03-18 18:18:58