2012-01-06 104 views
3

我在下面的代码与idTCPClient问题从一个telnet服务器读取缓冲区:空的缓冲区,但IdTCPClient.IOHandler.InputBufferIsEmpty是假

procedure TForm2.ReadTimerTimer(Sender: TObject); 
var 
    S: String; 
begin 
    if IdTCPClient.IOHandler.InputBufferIsEmpty then 
    begin 
    IdTCPClient.IOHandler.CheckForDataOnSource(10); 
    if IdTCPClient.IOHandler.InputBufferIsEmpty then Exit; 
    end; 
    s := idTCPClient.IOHandler.InputBufferAsString(TEncoding.UTF8); 
    CheckText(S); 
end; 

此过程运行每1000毫秒,当缓冲区有一个值CheckText调用。

此代码有效,但有时会将空缓冲区返回给CheckText。

有什么问题?

感谢

+0

我可以通过删除InputbufferAsString中的Encoding类型来解决这个问题。但是接收的文本包含UTF8文本,并且在我的程序显示中我有“YX'Y Z)X'X1X(X1 [X.YX/X1X'YX'X1X/Z)Y [X /: Z) YYY X9X(YX1:“text :-(,请帮我 – SadeghAlavizadeh 2012-01-06 18:03:41

+0

一个问题,为什么你不使用TidTelnet?这显然是由telnet控制字符造成的... – whosrdaddy 2012-01-06 18:14:17

+0

因为idTelnet不支持UTF8,我也想做一些处理可能会在显示前改变它 – SadeghAlavizadeh 2012-01-06 20:15:37

回答

5

您的代码试图读取InputBuffer中的任意数据块,并希望它们是完整有效的字符串。它是这样做的,没有ANY考虑你正在接收什么样的数据。这是多层次的灾难处方。

您已连接到Telnet服务器,但使用的是TIdTCPClient,而不是直接使用TIdTelnet,所以你MUST手动解码所接收任何远程登录序列BEFORE然后可以处理任何剩余的字符串数据。查看TIdTelnet的源代码。有很多解码逻辑发生在OnDataAvailable事件触发之前。所有Telnet序列数据都在内部处理,然后OnDataAvailable事件提供解码后剩余的任何非Telnet数据。

一旦你进行了Telnet解码处理,你必须注意的另一个问题是TEncoding.UTF8只处理正确编码的COMPLETE UTF-8序列。如果遇到严重编码的序列,或者更重要的是遇到不完整的序列,则返回一个空白字符串。这已经被报告为一个错误(参见QC#79042)。

CheckForDataOnSource()将插入的任何原始字节存储在那一刻InputBuffer中。 InputBufferAsString()提取InputBuffer在那一刻的任何原始字节,并尝试使用指定的编码对它们进行解码。当您拨打InputBufferAsString()时,InputBuffer中的原始字节很可能并不总是包含COMPLETE UTF-8序列。机会有时InputBuffer中的最后一个序列仍然在等待字节到达套接字,直到下一次调用CheckForDataOnSource()才会被读取。这可以解释为什么你的CheckText()函数在使用TEncoding.UTF8时收到空白字符串。

您应该使用IndyUTF8Encoding()来代替(Indy使用自己的UTF-8编码器/解码器来避免TEncoding.UTF8中的解码错误)。至少,你不会得到空白字符串,但是当UTF-8序列跨越多个CheckForDataOnSource()调用(不完整的UTF-8序列将被转换为?字符)时,仍然可能会丢失数据。仅仅因为这个原因,在这种情况下你不应该使用InputBufferAsString()(即使TEncoding.UTF8确实工作正常)。为了正确地处理这个问题,你应该:

1)手动扫描通过InputBuffer,计算有多少字节构成COMPLETE UTF-8只序列,然后传递到计数或InputBuffer.Extract()TIdIOHandler.ReadString()。任何剩余的字节将在下一次保留在InputBuffer中。为了达到这个目的,你将不得不无条件地拨打第一个InputBufferIsEmpty()电话,并且只需拨打CheckForDataOnSource(),这样即使你已经有一些字节,你也总是检查更多字节。

2)改为使用TIdIOHandler.ReadChar(),完全摆脱InputBufferIsEmpty()CheckForDataOnSource()的呼叫。缺点是如果UTF-8序列解码为UTF-16代理对,则会丢失数据。 ReadChar()可以解码替代品,但它不能返回对中的第二个字符(我已经开始为未来版本的Indy返回String而不是Char,因此可以返回完整的代理对)处理新的ReadChar()重载。

+0

Telnet服务器是否返回多字节字符数据? – 2012-01-09 14:47:36

+0

它可以,如果这就是它想要发送的内容,特别是如果实现了Multibyte/Unicode启用的RFC(如5198和2066)。另外请记住,某些协议(如FTP)基于Telnet,但在Telnet之外具有用于文本编码的自己的分区,所以即使Telnet协议本身未设置为Telnet协议本身,也可能包含多字节编码文本使用文本编码。 – 2012-01-09 21:41:44

+0

谢谢雷米,你能举两个例子吗? – SadeghAlavizadeh 2012-01-20 11:01:45

1

当你的代码是正确的,问题是最有可能的是,INPUTBUFFER包含可能含有空字符(#0),这将结束的字符串数据。

尝试 Remy's解决方案,并检查你得到的rawbytestring。

编辑

我没有读到,OP是从TelnetServer阅读。 OP应该使用TidTelnet而不是IdTCPClient。

EDIT2

我刚刚看了OP这也解释了为什么他没有使用TidTelnet的原因an older post

/Daddy

+0

我在那篇老帖子中解释过如何使用TIdTelnet并仍然完成目标 – 2012-01-07 09:30:09

1

Telnet服务器在每次回车后发送空字符(#0)。这很可能是你看到的。

编码为UTF8的空字符仍然是值为0的单个字节。请检查您是否正在接收这些字符。