1
A
回答
0
org.apache.nutch.segment.SegmentReader
有一个map reduction实现,用于读取segment目录中的内容数据。
5
import java.io.IOException;
import org.apache.commons.cli.Options;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.SequenceFile;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.util.GenericOptionsParser;
import org.apache.nutch.protocol.Content;
import org.apache.nutch.util.NutchConfiguration;
public class ContentReader {
public static void main(String[] args) throws IOException {
// Setup the parser
Configuration conf = NutchConfiguration.create();
Options opts = new Options();
GenericOptionsParser parser = new GenericOptionsParser(conf, opts, args);
String[] remainingArgs = parser.getRemainingArgs();
FileSystem fs = FileSystem.get(conf);
String segment = remainingArgs[0];
Path file = new Path(segment, Content.DIR_NAME + "/part-00000/data");
SequenceFile.Reader reader = new SequenceFile.Reader(fs, file, conf);
Text key = new Text();
Content content = new Content();
// Loop through sequence files
while (reader.next(key, content)) {
try {
System.out.write(content.getContent(), 0,
content.getContent().length);
} catch (Exception e) {
}
}
}
}
相关问题
- 1. 如何阅读Nutch索引的内容?
- 2. 阅读Nutch从MySQL中检索数据
- 3. Nutch从EMR问题阅读S3
- 4. 阅读使用Java
- 5. SerialPort阅读java
- 6. 阅读在Java
- 7. 阅读Java库
- 8. 阅读XML与阅读CSV文件java
- 9. 阅读比较和用java
- 10. 阅读Java文件
- 11. 从Java阅读JTextArea
- 12. Java阅读资源
- 13. 阅读和Java中
- 14. 阅读Java中的条码
- 15. 阅读批注的Java
- 16. Java属性的HashMap阅读
- 17. 阅读Java中的提要
- 18. Java的阅读动态JSON
- 19. 图书馆阅读的java
- 20. 的Java Scanner类阅读串
- 21. 的Java Scanner类阅读串
- 22. 用于Java的OCR名片阅读器
- 23. 如何阅读使用Java的XAML(WPF)?
- 24. 用于阅读文本的java代码
- 25. 阅读Java中的.java文件
- 26. 阅读单个字符java
- 27. 从Java阅读Windows ACL
- 28. Java文本阅读器
- 29. 不断阅读java WatchEvents
- 30. 阅读在Java错误
感谢您对以上!任何有助于检索给定文件类型(docx,pdf等)的方法。 – change
String contentType = content.getContentType(); \t \t \t \t \t if(!contentType.equalsIgnoreCase(“application/pdf”)){ – kitwalker
真棒!谢谢! argv代表的论点和顺序又是什么? – change