我觉得在使用cat()
之前将str
(的副本)的编码设置为"unknown"
并不是那么神奇,而且工作起来也一样。我认为这应该避免在cat()
中发生任何不需要的字符集转换。
这里是一个扩展案例来证明什么,我想在原来的例子发生:
print_info <- function(x) {
print(x)
print(Encoding(x))
str(x)
print(charToRaw(x))
}
cat("(1) Original string (UTF-8)\n")
str <- "\xe1\xbb\x8f"
Encoding(str) <- "UTF-8"
print_info(str)
cat(str, file="no-iconv")
cat("\n(2) Conversion to UTF-8, wrong input encoding (latin1)\n")
## from = "" is conversion from current locale, forcing "latin1" here
str2 <- iconv(str, from="latin1", to="UTF-8")
print_info(str2)
cat(str2, file="yes-iconv")
cat("\n(3) Converting (2) explicitly to latin1\n")
str3 <- iconv(str2, from="UTF-8", to="latin1")
print_info(str3)
cat(str3, file="latin")
cat("\n(4) Setting encoding of (1) to \"unknown\"\n")
str4 <- str
Encoding(str4) <- "unknown"
print_info(str4)
cat(str4, file="unknown")
在"Latin-1"
区域(见?l10n_info
)是在Windows上使用由R,输出文件"yes-iconv"
,"latin"
和"unknown"
应是正确的(字节序列0xe1
,0xbb
,0x8f
,它是"ỏ"
)。
在"UTF-8"
区域设置中,文件"no-iconv"
和"unknown"
应该是正确的。
的示例代码的输出如下所示,,使用R 3.3.2 64位Windows版本上运行的葡萄酒:
(1) Original string (UTF-8)
[1] "ỏ"
[1] "UTF-8"
chr "<U+1ECF>""| __truncated__
[1] e1 bb 8f
(2) Conversion to UTF-8, wrong input encoding (latin1)
[1] "á»\u008f"
[1] "UTF-8"
chr "á»\u008f"
[1] c3 a1 c2 bb c2 8f
(3) Converting (2) explicitly to latin1
[1] "á»"
[1] "latin1"
chr "á»"
[1] e1 bb 8f
(4) Setting encoding of (1) to "unknown"
[1] "á»"
[1] "unknown"
chr "á»"
[1] e1 bb 8f
在原来的实例中,iconv()
使用默认参数from = ""
这意味着从转换当前的语言环境,它实际上是“latin1”。因为str
的编码实际上是“UTF-8”,所以字符串的字节表示在步骤(2)中失真,但当其(假定)将字符串转换回当前语言环境时,其被隐含地恢复,如步骤(3)中的等效转换。
我不知道或使用[R自己,而只是阅读文档,'猫()'输出字符串“原样”,和'的iconv()的'mark'参数'默认为true,所以调用'iconv(str,to =“UTF-8”)''将它的输出显式标记为UTF-8,然后传递给'cat()'。也许'str < - “ỏ”'不是以同样的方式标记'str'?您可以使用'enc2utf8(str)'或'Encoding(str)< - “UTF-8”'将'str'明确转换并标记为UTF-8,而不使用'iconv()'。这可能会对'cat()'产生影响。 –