2011-06-14 58 views
3

我感到强烈的不适感观看方法签名时这样的:Xml文档不应该作为String传递,如何激励?

public void foo(String theXml); 

什么会foo FO如果通过用UTF-16 XML声明开头的字符串? 在我看来,XML应该是一个强类型的XML,比如一个DOM树或者一个字节数组。因此,FOO应当重新声明为:

public void foo(Byte[] theXml); 

通常,程序员会不必要地假设,当读取theXml具有一定的编码。通常只是希望文件库的默认值能正确猜测。

我该如何激励我的同事?

不兼容的文档头编码声明的动机太弱。 (使用强类型或字节数组会阻止对文档进行天真的解析/修改。)我曾多次看到由于这种错误导致编码中断的情况。

回答

7

确保在您的测试套件中有一个测试,如果在字符串中错误地处理XML,将会失败。如果解释问题没有动力,显示它发生的可能...

+0

谢谢,这是一个很好的答案。我正在寻找一些更理论化的东西。甚至可能是哲学的。 – Hugo 2011-06-14 12:51:07

+0

我不确定这是否是一个理论问题;更实用一个。一些使用XML的西方开发人员最初对字符和编码问题的复杂性存在盲点。处理具有“特殊”特征的广泛内容的内容强化了这些问题存在的观点;从那里开始有一些必须存在的方式来处理它们 - 从那里解决方案就是了解这项技术...... – alexbrn 2011-06-14 13:02:15

6

传递XML作为String没有比错过它作为byte[] - 如果输入已被解码,您可以愉快地忽略解码提示在处理指令中。您担心对编码做出不正确的假设,但如果使用字符串,则编码不是问题,因为您不必解码任何内容。 (当然有人可能会从原始字节构造字符串,并在那个点做出不正确的假设,当然会是是一个问题。但是,如果你采取byte[]参数,某人可能已经有一个字符串并将其转换。使用不正确的字符集字节)

解析字符串输入并不比从像java.io.ReaderSystem.IO.TextReader解码源解析输入陌生人(大多数XML解析器让你这样做),这给我们带来了另一个话题:我会建议不要将未解析的XML作为字符串或字节数组一起传递 - 如果您使用InputStream(对于不知道编码的源)和Reader s(如果您知道编码,或者由于某种原因数据不需要解码)。您还可以获得整个文档在解析之前不需要驻留在内存中的好处。

所以,与其这样:

public void foo(String theXml); 
public void foo(byte[] theXml); 
// Usage: 
foo("<document />"); 
foo("<?xml version='1.0' encoding='UTF-8' ?><document />".getBytes("UTF-8")); 

...你必须:

public void foo(Reader source); 
public void foo(InputStream source); 
// Usage: 
foo(new StringReader("<document />")); 
foo(new ByteArrayInputStream("<?xml version='1.0' encoding='UTF-8' ?><document />" 
          .getBytes("UTF-8"))); 
0

我想这忽略编码的重要性的将只是解决您的建议使用:foo(Encoding.Default.GetBytes(theString))。下一个可能会为你的课程做一个包装,以便他们可以再次使用string

我想在某些时候需要注意让一些事情做得正确,并且保护那些不希望编写正确代码的人可能会在开始之前失去战斗。

就我个人而言,我实际上总是发现,我们在编码数据流中声明编码有点奇怪。但这很理论。

0

我其实同意你的同事。除非你想要节省内存,但在调试时不可读,那么对此没有什么好的论点。编码在被传递之前应该被检查,不管类型。

如果你创建或使用包装器,你可以争辩说代码更干净。

相关问题