1
我有一个UTF-8(无BOM)编码的文件。文件正在Windows站点上创建,正在通过SFTP传输到Linux服务器。它使用cat -e
,我得到的是这样的:删除文件编码标记但保留其编码
cat -e file.txt
M-oM-;M-?test13;hbana0Kw;$
lala;LjgX$
现在,我知道M-oM-;M-?
代表UTF-8(无BOM)。有没有办法将其从文件中删除,但preseve其编码?
如果它不是BOM,则它是实际的字符数据,如果不更改文件的实际内容,则无法删除它们。但是,它在我看来就像一个BOM。 'cut -b1-3文件|的输出是什么? od -ch'? – tripleee 2014-11-24 12:25:53
嗨,它是'0000000 357 273 277 \ nlal \ n bbef 0abf 616c 0a6c 0000010' – NRG 2014-11-24 12:30:40
所以它是一个BOM切换的字节,又称为[零宽度无间隔空间](http://www.fileformat .INFO /信息/ Unicode的/炭/ FEFF/index.htm的)。 ('od'的输出是little-endian格式,更令人困惑的问题。) – tripleee 2014-11-24 12:37:20