您的代码试图读取InputBuffer
中的任意数据块,并希望它们是完整有效的字符串。它是这样做的,没有ANY考虑你正在接收什么样的数据。这是多层次的灾难处方。
您已连接到Telnet服务器,但使用的是TIdTCPClient
,而不是直接使用TIdTelnet
,所以你MUST手动解码所接收任何远程登录序列BEFORE然后可以处理任何剩余的字符串数据。查看TIdTelnet
的源代码。有很多解码逻辑发生在OnDataAvailable
事件触发之前。所有Telnet序列数据都在内部处理,然后OnDataAvailable
事件提供解码后剩余的任何非Telnet数据。
一旦你进行了Telnet解码处理,你必须注意的另一个问题是TEncoding.UTF8
只处理正确编码的COMPLETE UTF-8序列。如果遇到严重编码的序列,或者更重要的是遇到不完整的序列,则返回一个空白字符串。这已经被报告为一个错误(参见QC#79042)。
CheckForDataOnSource()
将插入的任何原始字节存储在那一刻到InputBuffer
中。 InputBufferAsString()
提取InputBuffer
在那一刻的任何原始字节,并尝试使用指定的编码对它们进行解码。当您拨打InputBufferAsString()
时,InputBuffer
中的原始字节很可能并不总是包含COMPLETE UTF-8序列。机会有时InputBuffer
中的最后一个序列仍然在等待字节到达套接字,直到下一次调用CheckForDataOnSource()
才会被读取。这可以解释为什么你的CheckText()
函数在使用TEncoding.UTF8
时收到空白字符串。
您应该使用IndyUTF8Encoding()
来代替(Indy使用自己的UTF-8编码器/解码器来避免TEncoding.UTF8
中的解码错误)。至少,你不会得到空白字符串,但是当UTF-8序列跨越多个CheckForDataOnSource()
调用(不完整的UTF-8序列将被转换为?
字符)时,仍然可能会丢失数据。仅仅因为这个原因,在这种情况下你不应该使用InputBufferAsString()
(即使TEncoding.UTF8
确实工作正常)。为了正确地处理这个问题,你应该:
1)手动扫描通过InputBuffer
,计算有多少字节构成COMPLETE UTF-8只序列,然后传递到计数或InputBuffer.Extract()
TIdIOHandler.ReadString()
。任何剩余的字节将在下一次保留在InputBuffer
中。为了达到这个目的,你将不得不无条件地拨打第一个InputBufferIsEmpty()
电话,并且只需拨打CheckForDataOnSource()
,这样即使你已经有一些字节,你也总是检查更多字节。
2)改为使用TIdIOHandler.ReadChar()
,完全摆脱InputBufferIsEmpty()
和CheckForDataOnSource()
的呼叫。缺点是如果UTF-8序列解码为UTF-16代理对,则会丢失数据。 ReadChar()
可以解码替代品,但它不能返回对中的第二个字符(我已经开始为未来版本的Indy返回String
而不是Char
,因此可以返回完整的代理对)处理新的ReadChar()
重载。
我可以通过删除InputbufferAsString中的Encoding类型来解决这个问题。但是接收的文本包含UTF8文本,并且在我的程序显示中我有“YX'Y Z)X'X1X(X1 [X.YX/X1X'YX'X1X/Z)Y [X /: Z) YYY X9X(YX1:“text :-(,请帮我 – SadeghAlavizadeh 2012-01-06 18:03:41
一个问题,为什么你不使用TidTelnet?这显然是由telnet控制字符造成的... – whosrdaddy 2012-01-06 18:14:17
因为idTelnet不支持UTF8,我也想做一些处理可能会在显示前改变它 – SadeghAlavizadeh 2012-01-06 20:15:37