我有一个CSV文件,但分隔符是分号;
,每列都用双引号括起来。还有的;
出现在一些价值观,如& amp;
解析半角冒号分隔符文件
我使用TextFieldParser来解析文件。这是样本数据:
"A001";"RT:This is a tweet"; "http://www.whatever.com/test/module & amp;one"
对于上面的例子,我得到比我应该得到什么更多的列/字段。
Field[0] = "A001"
Field[1] = "RT:This is a tweet"
Field[2] = "http://www.whatever.com/test/module&"
Field[3] = "one"
这是我的代码。处理这种情况需要做些什么改变?
using (var parser = new TextFieldParser(fileName))
{
parser.TextFieldType = FieldType.Delimited;
parser.SetDelimiters(";");
parser.TrimWhiteSpace = true;
parser.HasFieldsEnclosedInQuotes = false;
int rowIndex = 0;
PropertyInfo[] properties = typeof(TwitterData).GetProperties();
while (parser.PeekChars(1) != null)
{
var cleanFieldRowCells = parser.ReadFields().Select(
f => f.Trim(new[] { ' ', '"' }));
var twitter = new TwitterData();
int index = 0;
foreach (string c in cleanFieldRowCells)
{
string str = c;
if (properties[index].PropertyType == typeof(DateTime))
{
string twitterDateTemplate = "ddd MMM dd HH:mm:ss +ffff yyyy";
DateTime createdAt = DateTime.ParseExact(str, twitterDateTemplate, new System.Globalization.CultureInfo("en-AU"));
properties[index].SetValue(twitter, createdAt);
}
else
{
properties[index].SetValue(twitter, str);
}
index++;
}
}
-Alan-
你尝试HasFieldsEnclosedInQuotes''设置为true? – kuujinbo
是的,但没有不同 –
尝试在每一行上调用System.Net.WebUtility.HtmlDecode()。它会将'&'变成'&',以及解码任何其他内容。 – kuujinbo