首次对Java进行编码时,请耐心等待:PI试图在Java中创建一个程序,该程序将打开一个html文件并对其进行编辑,以便删除所有它的html标签,但只有他们而不是其他所有东西。我假设文件已经存在,我不需要创建它。 现在我一直在使用一个.txt文件,它里面有html代码,为了让我开始更快。 到目前为止,我已经设法编辑该文件,以便它只是删除html标签并将其替换为无。然而,我真正想要的是删除任何内部的开幕式和右括号。我会告诉什么,我需要一个例子:替换Java中其他两个字符之间的字符串中的所有字符
<html>
<body>
<p> blah blah blah
</p>
</body>
</html>
我的计划已经执行后,txt文件应该只有“等等等等等等”在里面。 为了更换标签,我使用:
if(myString.contains("<html>"))
{
// do stuff
}
因此,这里是我的问题:有什么样的转义字符在Java中,让我说:
if(myString.contains("<") && it is followed by as many characters as the file wants by (">"))
//then remove everything in between them.
为求让我们假设.txt文件中的html代码没有错误。如果你想要,我会发布代码,但它的结构非常糟糕,我认为它不会帮助你理解我在做什么。那是因为我一直在尝试很多东西,而且我保留了任何我可能觉得有用的评论。感谢您的时间!
可能的[在Java中剥离HTML标记]的副本(http://stackoverflow.com/questions/832620/stripping-html-tags-in-java) – nvisser