我有HTML表格的文档。有些单元格只有数字。其他单元格包含数字和单词。如何从HTML表格中提取仅文本并忽略标记?
有什么办法只保留含单词的单元格的内容,而不能只保留单元格的内容?
有没有一个模块,任何人都知道我可以用它来做到这一点?或者,有无论如何我可以使用正则表达式?
<table>
<tr>
<td>WORDS WORDS WORDS WORDS WORDS WORDS 123</td>
<td> 789</td>
</tr>
<tr>
<td> 123 </td>
<td>WORDS WORDS</td>
</tr>
</table>
我对Perl仍然很新,所以请原谅我的问题,如果它非常简单。另外,我已经被警告过使用正则表达式解析HTML文本的潜在问题。
非常感谢!顺便说一下,我将使用一个模块来终止所有的HTML代码。