我遇到了解析其中含有非法字符(二元标记)的文本文件的问题。的回答会是这样如下:使用java.nio处理带有二进制数据的字符串
test.csv
^000000^id1,text1,text2,text3
这里^000000^
是源文件中的非法字符的文本表示。
我正在考虑在处理它之前使用java.nio来验证行。所以,我想引入一个Validator特征如下:
import java.nio.charset._
trait Validator{
private def encoder = Charset.forName("UTF-8").newEncoder
def isValidEncoding(line:String):Boolean = {
encoder.canEncode(line)
}
}
你们认为这是处理这种情况的正确方法吗?
谢谢
那么,它的工作?如果是,你就完成了!如果没有(或“不够好”),那么哪里出了问题? – 2013-04-05 18:25:44
@RexKerr - 理想情况下,我希望验证器能够确保字符串的内容符合en-US。在字符编码/解码技术方面仍然有所改进,但我想知道是否有任何经过验证的方法可以遵循。 – 2013-04-05 19:03:18