我想提取一个html文件的文本内容生成一些工具。 因为html格式不正确,我无法使用普通的sax或dom解析器。解析html报告文件
所以我试图用HTMLParser的http://htmlparser.sourceforge.net/
现在,我怎么能提取我所需要的节点?
我使用了下面的代码,但它没有读取节点文本内容。它只是打印tds与它的attibute.How我可以获取节点的身体?
td colspan="2"
td valign="top" class="titleText"
我想提取其体内有一个数字和百分比符号
String inputHTML = readFileAsString(filePath);
Parser parser = new Parser();
parser.setInputHTML(inputHTML);
parser.setEncoding("UTF-8");
NodeList nl = parser.parse(null);
NodeList tds = nl.extractAllNodesThatMatch(new TagNameFilter("td"),true);
for(int i= 0; i < tds.size(); i++) {
Node node = tds.elementAt(i);
System.out.println(node.getText());
}
DOM解析器可以方便地提取 – 2012-03-02 15:07:34
它给了异常,因为HTML不是很好formeed.Some关闭标签缺失 – user93796 2012-03-02 15:10:23
那不是一个问题,, DOM可以解析,如果标签是不是也收,,如果不还welformed没有问题的取数据 – 2012-03-02 17:21:52