获取页面内容的格式，因为它是在nutch

in nutch，我正在寻找一种方法来获取页面内容的格式，因为它（线，新行和段落）。获取页面内容的格式，因为它是在nutch

即将到来的代码并没有帮助，因为它删除了页面的所有格式。

Parse parse = parseResult.get(content.getUrl());  
parse.getText()

即使

BufferedReader br = new BufferedReader(new InputStreamReader(new 
ByteArrayInputStream(content.getContent()))); 
while (br.readLine() != null) 
LOG.info("After br: " +br.readLine());

不是解决方案，因为它返回格式化的内容，但与HTML标签。

我真的希望它是原始格式，以便能够将它发送到将提取所需内容的方法。

谢谢

来源

2012-01-30 Haya aziz

没有直接的方法来做到这一点。

根据您的需要研究和修改src\java\org\apache\nutch\segment\ContentAsTextInputFormat.java。

来源

2012-04-03 15:32:17

获取页面内容的格式，因为它是在nutch

回答

相关问题