0
我有一个hadoop流媒体程序,其中reader.readline()如果传入的行太大(超过20M左右),会出现OutOfMemoryException。有没有办法告诉hadoop不通过超过一定大小的记录?太大的记录是百万分之一。我宁可不使用跳过坏记录选项...Hadoop数据流丢失非常大的记录
我也试过使用此代码http://code.google.com/p/owasp-esapi-java/issues/attachmentText?id=183&aid=-7134623167843514645&name=BoundedBufferedReader.java而不是reader.readline(),但它太慢了,我认为,因为它只读取一个字符在一次。
我添加了一个似乎减轻了问题的交换,但我原来的问题仍然存在。 –