2010-09-02 93 views
43

可能重复:
Best methods to parse HTMLPHP解析HTML代码

如何可以解析PHP变量举行,如果它像HTML代码:

<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG! 

我想到只得到标题之间的文字,我明白使用正则表达式不是一个好主意。

+4

每个关闭这个的人都是重复的。这是不同的,因为OP不需要文本'T1,T2,T3',但是一个标题之后的文本结束并且在下一个标题开始之前。例如'Lorem ipsum.'。所以,*这个*是不同的。请看一下。 – shamittomar 2010-09-03 10:03:42

回答

105

使用PHP Document Object Model

<?php 
    $str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG'; 
    $DOM = new DOMDocument; 
    $DOM->loadHTML($str); 

    //get all H1 
    $items = $DOM->getElementsByTagName('h1'); 

    //display all H1 text 
    for ($i = 0; $i < $items->length; $i++) 
     echo $items->item($i)->nodeValue . "<br/>"; 
?> 

这是输出:

T1 
T2 
T3 

[编辑]:OP澄清后:

如果你想要的内容类似Lorem ipsum。等,可以直接使用这个表达式:

<?php 
    $str = '<h1>T1</h1>Lorem ipsum.<h1>T2</h1>The quick red fox...<h1>T3</h1>... jumps over the lazy brown FROG'; 
    echo preg_replace("#<h1.*?>.*?</h1>#", "", $str); 
?> 

此输出:

的Lorem ipsum.The快速赤狐......跳通过惰性林蛙

+0

谢谢,但我需要得到

之间的文本,如: “Lorem ipsum。”,“快速红狐狸......”等。因此,不是H1标签之间的文本,而是文本之间的文本结尾标签和开始

。 – Francisc 2010-09-02 16:00:27

+0

@Francisc,我已经更新了答案。 – shamittomar 2010-09-02 16:53:41

+0

更近了,谢谢。 我会尽量做得更清楚:我想获取标题之间的文本,计算其长度并决定是否要隐藏其中的一部分。 虽然你的回答非常有帮助。但是我想要做的就是保留所有文本,只需添加一些html来隐藏它的一部分。 – Francisc 2010-09-02 17:29:37