2011-08-19 46 views
0

我有一个文本文件(.txt),其中包含文本数据,二进制数据和XML数据。我搜索了几分钟,并不知道如何只有从这个文本文件中提取XML。 SO的好用户可以提供一些建议吗?只读取包含文本,二进制和XML数据的文本文件中的XML?

我正在使用C#4.0。

因为我不能简单地将文本文件加载到XDocument中,我一直在使用正则表达式,但这种方法让我没有在哪里。

+1

听起来像一个可怕的文件。各部分之间的文件中是否有任何分隔符? – Tejs

+0

它实际上是一个保存为文本的MIME。 我有一些运气,实际上,与正则表达式和使用单线模式。显然只有XML元素之间的换行符。 –

+0

明白了。我用这个正则表达式: ] *> 从这里 - http://www.regular-expressions.info/examples.html ,并确保我使用单行模式,因为(*?) XML元素之间的换行符。 –

回答

0

首先,文件不能同时为文本和二进制:如果它包含二进制数据,它是二进制文件。但从你的描述看来,它是一个文本文件,其中包含一些文本编码形式的二进制数据。

如果您知道根标签名称是什么,那么使用子字符串搜索来定位xml文档的开始和结束,“剪切”它,然后您可以以任何您想要的方式处理它。

相关问题