2013-01-15 49 views
3

.NETTextFieldParser随着其他东西比“

随着TextFieldParser可以指定分隔符圈地。

但附上布尔

TextFieldParser.HasFieldsEnclosedInQuotes

如何指定像®为

如果答案是要读取每一行然后拆分,那么不要提供该代码
我已经有了一个“手动”解析器。
我的问题是如果我可以使用TextFieldParser。

+0

啊...花了一分钟才明白,“但Enclosed是布尔值”是指具有布尔型数据类型的'HasFieldsEnclosedInQuotes'属性(而不是引号内的文本是字符串表示形式一个布尔值)。 – JDB

回答

1

TextFieldParser类只支持双引号(")用于封闭。没有办法改变这一点。

+0

哦,值得问。在给这张支票之前,会等待一个奇迹般的答案。 – Paparazzi

2

CodePlex上的这个Fast CSV Reader库支持自定义的“引用字符”,它可以设置为®。你可以用这个而不是TextFieldParser,它只支持用双引号括起来的记录。

+0

由于我的手册正在运行,只能保持它。没有性能问题。我希望简化代码。 – Paparazzi

1

在调用TextFieldParser之前,您可以用"个字符替换所有的®字符。通过预处理磁盘上的文件,或使用某种包装TextReader。这是我写的一个示例:

/// <summary> 
/// Wrapping text reader that transforms each line of text with 
/// the supplied deleagte before it is read. 
/// </summary> 
public class TransformingTextReader : TextReader 
{ 
    private readonly TextReader _innerReader; 
    private readonly Func<string, string> _lineTransform; 
    private StringReader _lineReader; 

    public TransformingTextReader(TextReader innerReader, 
     Func<string, string> lineTransform) 
    { 
     _innerReader = innerReader; 
     _lineTransform = lineTransform; 
     _lineReader = new StringReader(string.Empty); 
    } 

    public override int Read() 
    { 
     // Read next character in line 
     var result = _lineReader.Read(); 

     // If end of line (or beginning of stream) 
     if (result == -1) 
     { 
      // Read line from underlying reader 
      var line = _innerReader.ReadLine(); 
      if (line != null) 
      { 
       // Transform the line, and begin reading its characters 
       line = _lineTransform(line) + "\r\n"; 
       _lineReader = new StringReader(line); 
       result = _lineReader.Read(); 
      } 
     } 
     return result; 
    } 

    protected override void Dispose(bool disposing) 
    { 
     base.Dispose(disposing); 
     if (disposing) 
     { 
      // Make sure we dispose the underlying reader as well 
      _innerReader.Dispose(); 
     } 
    } 
} 

这将允许你做类似如下:

var fileReader = new StreamReader(path); 
var transformingReader = new TransformingTextReader(fileReader, 
    s => s.Replace('®', '\"')); 
using (var parser = new TextFieldParser(transformingReader) 
{ 
    // Your code 
} 

更新:这里是你如何使用TransformingTextReader逃脱内心的例子报价(参考我的意见):

// Use regex to escape quotes not adjacent to a delimiter 
    var pattern = "(?<=[^,])\"{1,2}(?=[^,])"; 
    var replacement = "\"\""; 
    var regex = new Regex(pattern, RegexOptions.Compiled); 
    var transformingReader = new TransformingTextReader(fileReader, 
     s => regex.Replace(s, replacement)); 

当然你可以连续使用多个TransformingTextReader情况下,每形成多个转换。 ;-)

+0

是的,可以用“®替代,但是其中一些领域的原因是”作为该领域的一部分。即使是“,”也可能发生在现场。 – Paparazzi

+1

是的,我也必须处理这个问题。你可以通过将解析器加倍引号来解释引号,例如''“'被解释为文字'''。我将更新我的示例以包含一个示例,说明如何使用'TransformingTextReader'来处理文件正确地跳过引号 – luksan

+0

只需在®上分割每一行,然后在第一个和最后一个位置修剪®代码即可。 – Paparazzi