我想索引一系列共享相同格式的.html文件中的一些内容。在PHP中需要正则表达式的帮助
所以我得到了很多的行这样的:<a href="meh">[18] blah blah blah < a...
这个想法是提取次数(18)和文本旁边(等等...)。此外,我知道每条排位赛线路将从">
开始,并以<a
或</p
结束。该问题源于需要将所有其他htmHTML标签保留为文本的一部分(<i>
,<u>
等)。
于是我有这样的事情:
$docString = file_get_contents("http://whatever.com/some.htm");
$regex="/\">\ [(.*?)\ ] (<\/a>)(.) *?(<)/";
preg_match_all($regex,$docString,$match);
让我们来看看$regex
为秒。忽略它的空间,我只是把它们放在这里,因为有些人物消失了。我指定它将以">
开头。然后我做[]
事情里面的数字。然后我选出了</a>
。到现在为止还挺好。
最后,我做了一个(.)*?(<)
。这是转折点。通过留下最后一位,(<)
就像那样,当找到下划线或斜体标记时,文本将被中断。但是,如果我将(<a|</p)
结果数组结束为空。我试过把它改成只有(<a)
,但看起来2个人物搞砸了整个TING。
我该怎么办?我一整天都在苦苦挣扎。
我会尽快尝试,只要有机会,谢谢。 – navand 2010-11-12 14:22:57