我有多个文本文件要用JavaSparkContext读取,并且每个文件可能略有不同,并且包含多行记录,所以我想使用正则表达式分隔符来查找记录。是否可以使用正则表达式来配置textinputformat分隔符?是否可以使用正则表达式作为textSpringContext的textinputformat分隔符?
..
String regex = "^(?!(^a\\s|^b\\s))";
JavaSparkContext jsc = new JavaSparkContext(conf);
jsc.hadoopConfiguration().set("textinputformat.record.delimiter", regex);
..
这个答案是错误的,实际上它解析了“:::”匹配字符而不是正则表达式的原因,而新行仅仅是因为“println”。 –