Xml文档不应该作为String传递，如何激励？

我感到强烈的不适感观看方法签名时这样的：Xml文档不应该作为String传递，如何激励？

public void foo(String theXml);

什么会foo FO如果通过用UTF-16 XML声明开头的字符串？在我看来，XML应该是一个强类型的XML，比如一个DOM树或者一个字节数组。因此，FOO应当重新声明为：

public void foo(Byte[] theXml);

通常，程序员会不必要地假设，当读取theXml具有一定的编码。通常只是希望文件库的默认值能正确猜测。

我该如何激励我的同事？

不兼容的文档头编码声明的动机太弱。（使用强类型或字节数组会阻止对文档进行天真的解析/修改。）我曾多次看到由于这种错误导致编码中断的情况。

来源

2011-06-14 Hugo

确保在您的测试套件中有一个测试，如果在字符串中错误地处理XML，将会失败。如果解释问题没有动力，显示它发生的可能...

来源

2011-06-14 12:40:26 alexbrn

谢谢，这是一个很好的答案。我正在寻找一些更理论化的东西。甚至可能是哲学的。 – Hugo 2011-06-14 12:51:07

我不确定这是否是一个理论问题;更实用一个。一些使用XML的西方开发人员最初对字符和编码问题的复杂性存在盲点。处理具有“特殊”特征的广泛内容的内容强化了这些问题存在的观点;从那里开始有一些必须存在的方式来处理它们 - 从那里解决方案就是了解这项技术...... – alexbrn 2011-06-14 13:02:15

传递XML作为String没有比错过它作为byte[] - 如果输入已被解码，您可以愉快地忽略解码提示在处理指令中。您担心对编码做出不正确的假设，但如果使用字符串，则编码不是问题，因为您不必解码任何内容。（当然有人可能会从原始字节构造字符串，并在那个点做出不正确的假设，当然会是是一个问题。但是，如果你采取byte[]参数，某人可能已经有一个字符串并将其转换。使用不正确的字符集字节）

解析字符串输入并不比从像java.io.Reader或System.IO.TextReader解码源解析输入陌生人（大多数XML解析器让你这样做），这给我们带来了另一个话题：我会建议不要将未解析的XML作为字符串或字节数组一起传递 - 如果您使用InputStream（对于不知道编码的源）和Reader s（如果您知道编码，或者由于某种原因数据不需要解码）。您还可以获得整个文档在解析之前不需要驻留在内存中的好处。

所以，与其这样：

public void foo(String theXml); 
public void foo(byte[] theXml); 
// Usage: 
foo("<document />"); 
foo("<?xml version='1.0' encoding='UTF-8' ?><document />".getBytes("UTF-8"));

...你必须：

public void foo(Reader source); 
public void foo(InputStream source); 
// Usage: 
foo(new StringReader("<document />")); 
foo(new ByteArrayInputStream("<?xml version='1.0' encoding='UTF-8' ?><document />" 
          .getBytes("UTF-8")));

来源

2011-06-14 12:54:25 gustafc

我想这忽略编码的重要性的将只是解决您的建议使用：foo(Encoding.Default.GetBytes(theString))。下一个可能会为你的课程做一个包装，以便他们可以再次使用string。

我想在某些时候需要注意让一些事情做得正确，并且保护那些不希望编写正确代码的人可能会在开始之前失去战斗。

就我个人而言，我实际上总是发现，我们在编码数据流中声明编码有点奇怪。但这很理论。

来源

2011-06-14 12:55:34

我其实同意你的同事。除非你想要节省内存，但在调试时不可读，那么对此没有什么好的论点。编码在被传递之前应该被检查，不管类型。

如果你创建或使用包装器，你可以争辩说代码更干净。

来源

2011-06-14 13:03:30 hcb

Xml文档不应该作为String传递，如何激励？

回答

相关问题