如何提取从HTML文件如何使用PHP从HTML文件中提取所有文本?
所有文字我想提取所有文字,在ALT属性,< p>标签等。
但是我不想提取风格之间的文本和脚本标签
感谢
现在我有以下代码
<?PHP
$string = trim(clean(strtolower(strip_tags($html_content))));
$arr = explode(" ", $string);
$count = array_count_values($arr);
foreach($count as $value => $freq) {
echo trim ($value)."---".$freq."<br>";
}
function clean($in){
return preg_replace("/[^a-z]+/i", " ", $in);
}
?>
这很好,但它检索脚本和样式标签,我不想检索 和另一个问题,我不确定它是否确实检索属性,如ALT - 因为strip_tags函数可能会删除所有具有其属性的HTML标记
谢谢
使用正则表达式来查找您的内容,而不是将其用于清理。 – jantimon 2009-10-02 08:16:35
您是否有要从中提取文本的标签和属性的“白名单”,或者您不想从中提取文本的标签/属性的“黑名单”? – VolkerK 2009-10-02 08:27:42
@Ghommey:谢谢我正在尝试,但它对我来说太难了 – ahmed 2009-10-02 08:40:36