0
in nutch,我正在寻找一种方法来获取页面内容的格式,因为它(线,新行和段落)。获取页面内容的格式,因为它是在nutch
即将到来的代码并没有帮助,因为它删除了页面的所有格式。
Parse parse = parseResult.get(content.getUrl());
parse.getText()
即使
BufferedReader br = new BufferedReader(new InputStreamReader(new
ByteArrayInputStream(content.getContent())));
while (br.readLine() != null)
LOG.info("After br: " +br.readLine());
不是解决方案,因为它返回格式化的内容,但与HTML标签。
我真的希望它是原始格式,以便能够将它发送到将提取所需内容的方法。
谢谢