0
我有一个文本文件(.txt),其中包含文本数据,二进制数据和XML数据。我搜索了几分钟,并不知道如何只有从这个文本文件中提取XML。 SO的好用户可以提供一些建议吗?只读取包含文本,二进制和XML数据的文本文件中的XML?
我正在使用C#4.0。
因为我不能简单地将文本文件加载到XDocument中,我一直在使用正则表达式,但这种方法让我没有在哪里。
我有一个文本文件(.txt),其中包含文本数据,二进制数据和XML数据。我搜索了几分钟,并不知道如何只有从这个文本文件中提取XML。 SO的好用户可以提供一些建议吗?只读取包含文本,二进制和XML数据的文本文件中的XML?
我正在使用C#4.0。
因为我不能简单地将文本文件加载到XDocument中,我一直在使用正则表达式,但这种方法让我没有在哪里。
首先,文件不能同时为文本和二进制:如果它包含二进制数据,它是二进制文件。但从你的描述看来,它是一个文本文件,其中包含一些文本编码形式的二进制数据。
如果您知道根标签名称是什么,那么使用子字符串搜索来定位xml文档的开始和结束,“剪切”它,然后您可以以任何您想要的方式处理它。
听起来像一个可怕的文件。各部分之间的文件中是否有任何分隔符? – Tejs
它实际上是一个保存为文本的MIME。 我有一些运气,实际上,与正则表达式和使用单线模式。显然只有XML元素之间的换行符。 –
明白了。我用这个正则表达式:] *> 从这里 - http://www.regular-expressions.info/examples.html ,并确保我使用单行模式,因为(*?) XML元素之间的换行符。 –