我已经如下所示,其编码为UTF-8的文本文件f.txt
:关于文本文件编码和如何在不同编码方法之间转换的混淆?
chengs-MBP:test cheng$ cat f.txt
Wіnd
like
chengs-MBP:test cheng$ FILE -I f.txt
f.txt: text/plain; charset=utf-8
然而,这两个词在此文件Wind
和like
是diiferent,作为like
可以通过grep
命令来发现而Wind
不能,这让我感到困惑:
chengs-MBP:test cheng$ cat f.txt | grep like
like
chengs-MBP:test cheng$ cat f.txt | grep Wind
chengs-MBP:test cheng$
而且我想通过iconv
命令来改变这个文件us-ascii
,但我失败了:
chengs-MBP:test cheng$ iconv -f UTF-8 -t US-ASCII f.txt > new.txt
conv: f.txt:1:0: cannot convert
我的目标是将这个文件转换为一个格式,这个文件中的所有单词可以通过grep
或sed
找到......就这些了。
确保这两种格式都在我'的iconv -l'测试'的iconv -l' – Arash
@Arash上市,无论是UTF-8和US-ASCII是在列表中。你甚至可以在这里复制这两个词:'W'nd','''看看你是否有同样的问题? –
这适用于我:'printf'Word \ nlike \ n“| iconv -f UTF-8 -t US-ASCII“ – Arash